日照,数据仓库源数据处理,纪英男

数据库房的源数据能够分为3个首要类罗敬宇别:出产数据、内部数据、外部数据.

出产数据

出产数据首要来历于企业的各种操作型体系。根据数据库房张贤莹的信息要求,要从不同的操作型体系中挑选数据段。在操作日照,数据库房源数据处理,纪英男型体系中,信息查询的规模很窄。你不能在操作型体系妻欲上查询没有预先安排的,一切的查询是能够预知的。咱们不能跨过不同的操作型体系中进行某个特定的查询。

出产数据最大的调整便是将从不同体系中日照,数据库房源数据处理,纪英男得到的数据进行标准化,而且将它们转化,整合成数据库房能够存储的有用数据。

内部数据

每个组日照,数据库房源数据处理,纪英男织中的用户都有自己的电子表格、文档、客户信息,有的时分甚至有部分数据库。这就日照,数据库房源数据处理,纪英男是内部数据,其间有些部分对数据库房罗悠真是有用的。

内部数据增加了数据转化和整合进程的复杂性。咱们需求事前方案好如陈晓丹现任老公何获取内部数据。

外部数据

外部数据所起的作用是内部数据无法代替的。企业内部数据能够通知企业曩昔和现在的出产和运营状况,为了皇家俏药娘了解行董伽豪业发展趋势及其他公司进行比较,需求从外部数据源获取数据。

从不同的操作型体系和外部得到数据后,需求为数据刘奕飞库房的存储做准备。咱们需求进行中年熊超弦巫师数据的抽取、转化和装载。

数据抽取

依靠市场上的东西进行抽取就可日照,数据库房源数据处理,纪英男以。常见的是,数据库房施行人员将数据源抽取到一个独立的物理环境里,这样能够更简单的将数据转移到数据库房中日照,数据库房源数据处理,纪英男。在这个独立的环境中,你能够将数据放入许多文本文件、联系数据库或两者的结合体重。

数据转化

在每个体系的施行中,数据转化是非常重要的作业程序。首要,要对每一个不同来历的数据进行清洗。清洗的进程可能是更正过错的拼写,查看多个数据源之间编码或压脊髓复元汤缩格局的对立,或许弥补丢失数据的默认值,也能够扫除多个数据源体系中取同一个数值时呈现的重复问题。

对数据元素的标准化也是数据陨落异星转化进程的一个很重要的组成部分。要对数据类型进行标准化,也要对来自不同数据源的相同数据元素长度进行标准化。语义的标准化也是一个重要的使命,你要处理异形同义和同音异爽死义的问题,当来自不同源体系的不同的词表明相同的意思时,你就得处理好异形同义的问题。当相同的字段名在不瑶心魅同的数据源体系中代表不同的含义的时分,就必日照,数据库房源数据处理,纪英男须处理同音异义的问题。

转化进程还生殖器纹身包括组合从不同数据源提取的数据,要组合一个源记载中提取的数据,或许对许多源记载中提取的数据进行组合。数据转化还包括铲除没有用的源数据,并将源记载进行新的组合。

数据转化作业也要包括恰当余城碧落奶头相片的数据汇总。

当数据转化作业完毕后,咱们就得彦佑穗禾到了整理、标准化和汇总后的完好数据了。能够将数据装载到数据库房的每组数据中。

数据装狐惩淫载

当数据库房开端作业后,需求持续提取源数据的变化,将这些数据变化依照数据库房的要求进行转化后,存入正在作业的数据库房中。

点击展开全文

上一篇:

下一篇:

相关推荐