数据仓库知识介绍(1)

wuyitt205

贡献于2015-11-25

字数:0 关键词: 数据挖掘

2010年5月31日 DWDW的相关的基础理论与方法的相关的基础理论与方法 吴文辉 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation2 2010年5月31日 AA、数据仓库基本概念、数据仓库基本概念 BB、数据仓库系统、数据仓库系统 CC、联机数据分析、联机数据分析 DD、、BIBI产品的分类产品的分类 EE、数据挖掘技术、数据挖掘技术 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation3 2010年5月31日 A、数据仓库基本概念 § 数据仓库技术产生的背景 § 什么是数据仓库技术 § 数据仓库技术与相关技术的比较和联系 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation4 2010年5月31日 数据库发展的几个阶段 Ø1960s: 数据采集、数据库创建阶段 集中于原始文件的处理 层次数据库和网状数据库 Ø1970s: 关系数据库管理系统 关系数据模型和关系数据库管理系统 E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并 发技术) Ø1980s: 高级数据库管理系统 面向对象数据库、对象-关系数据库、主动数据库、 演绎数据库、模糊数据库、空间数据库、时空数据库、统计 数据库 数据挖掘技术 Ø1990s: 数据仓库、联机分析处理和数据挖掘 数据仓库、联机分析处理和数据挖掘, 多媒体数据库, Web数据库、Data Stream PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation5 2010年5月31日 现有的数据库系统的侧重点 Ø现有的数据库系统,主要用于事务处理 – 一笔存款(一张存款单) – 一笔取款(一张取款单) – 一笔转帐(一张转帐单) – 一次挂失(一张挂失单) Ø强调多用户并发环境,数据的一致性、完整 性 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation6 2010年5月31日 企业信息化建设现状 § 在数据库技术的支持下,一大批成熟的业务 信息系统投入运行,为企业发展作出了巨大 贡献 § 各类信息系统大多属于面向事务处理的OLTP 系统 § 信息系统多年运行,积累了大量的数据 § 数据是一种宝贵的资源,但没有充分发挥作 用 § 管理决策层对数据分析基础平台的需求日益 强烈 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation7 2010年5月31日 企业信息化建设的趋势 § 发展趋势 数据集中化 业务综合化 管理“扁平化” 决策科学化 § 特点 以客户为中心 以服务求发展 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation8 2010年5月31日 对企业信息化建设的更高要求 § 市场竞争日益激烈—创造竞争优势 • 需要及时、准确的做出科学决策 • 科学决策必须以准确、有效的数据为基础 • 充分利用现有数据,将它转化为信息 § 以客户为中心的经营管理模式—优化客户关 系 • 原有系统往往以产品为中心 • 原有系统往往以“单据(票证)”的处理为基础 • 转向“以客户为中心” • 强调服务,尤其是个性化服务 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation9 2010年5月31日 分析处理的需求 持卡人今年的交易情况与以往相比,有怎样的 变化?交易特点(存款、取款、转帐、消费) 是什么?持卡人消费倾向(宾馆、大型商场、 超级市场等)是什么? 要求: – 多个子系统中的数据(数据集成) – 历史数据 – 汇总、综合的数据 – 一致的数据视图 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation10 2010年5月31日 分析人员的典型信息需求 § 覆盖企业内部信息、合作伙伴信息和市场信 息 § 覆盖综合信息和明细信息 § 覆盖当前数据和历史数据 § 高可用性 § 高质量的数据(一致性、完整性) § 支持各种不同的分析方法 § 数据定义符合业务人员要求 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation11 2010年5月31日 现有数据库系统处理分析型应用存在的问题 § 数据可信性 § 生产率(信息提供的及时性) § 不可能把数据转换成信息 § 数据动态集成问题 § 历史数据问题 § 数据的综合问题:非细节数据,多种程度的 综合 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation12 2010年5月31日 提升现有的信息 § 企业范围内的信息共享 § 准确、一致的集成数据 § 面向整个企业和最终用户,针对分析需要, 进行数据重组,形成一套全新的、相对完整 的数据视图 – 快速访问 – 精确、灵活分析 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation13 2010年5月31日 数据仓库要解决的基本问题 全局范围内统一数据视图 § 数据内容 – 数据的完整性 – 数据的准确性 – 数据的一致性 § 数据组织 – 面向分析决策 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation14 2010年5月31日 数据仓库需要建立,而不是购买 – 需要针对多个数据源的数据集成 – 考虑“重要”的业务分析问题 – 选择合适的数据源(内部、外部) – 数据仓库系统的建设永无止境 – 数据仓库系统的建设是一项工程,同时也是一 个过程 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation15 2010年5月31日 A、数据仓库基本概念 § 数据仓库技术产生的背景 § 什么是数据仓库技术 § 数据仓库技术与相关技术的比较和联系 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation16 2010年5月31日 数据仓库的定义 Ø数据仓库(Data Warehouse)是一个面向主题的 (Subject Oriented )、集成的(Integrated)、相 对稳定的(Non-Volatile)、反映历史变化 (Time Variant)的数据集合,用于支持管理决策和信 息的全局共享。 —W.H.Inmon Ø对数据仓库的理解 数据仓库用于支持管理和决策,面向分析型数据处理,它 不同于企业现有的面向交易的操作型数据库; 数据仓库是对多个异构的数据源有效集成,集成后按照主 题进行了重组,并包含历史数据。 ØData warehousing: 构建和使用数据仓库的过程 特性:面向主题、集成性、稳定性和时间特性 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation17 2010年5月31日 数据仓库的特点:面向主题 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation18 2010年5月31日 面向主题的数据组织 主题:宏观分析领域所涉及的分析对象 p面向主题的数据组织方式:在较高的层次上对分析对 象的数据的一个完整、一致的描述。 p采用面向事务进行数据组织,其特点为: – 充分考虑企业的部门组织结构和业务活动 – 反映企业内部数据流动情况,业务处理的数据流程 – 与业务处理流程中的单据、票证、文档有良好的对应 – 数据与应用(数据的处理)有一定的对应 p例:保险公司: – 面向应用(操作):财产险、寿险、健康险、意外险。 – 面向主题:客户、保单、保费、理赔(赔款)。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation19 2010年5月31日 面向主题的数据组织的特点 Ø各个主题有完整、一致的信息内容,便于在此基础 上作分析处理。 Ø主题之间有重迭的内容,反映主题间的联系。 Ø重迭是逻辑上的,不是物理上的;重迭仅在细节层。 Ø各主题的综合方式不同。例如: – 商品主题的采购信息可汇总(综合)成:商品号、时间段、采购总 量…… – 供应商主题的供应商品信息可综合成供应商号、时间段、供应总 量…… Ø主题域应该具有独立性、完备性。 – 独立性:有明确界限,数据是否属于该主题; – 完备性:对该主题进行分析所涉及的内容均要在主题域内; PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation20 2010年5月31日 面向主题数据组织的实现 Ø多个表,公共码键(把各个表统一联系起来),但同 一主题的表可存放在不同介质上 – 例:商品主题可有商品表(商品基本信息),采购 表(商品采购信息),销售表(商品销售信息), 库存表(商品库存信息);公共码键:商品号。 Ø综合信息,多个层次 Ø面向主题数据组织方式独立于数据的事务处理逻辑。 即可以支持分析型数据环境,又可用于ODS(操作数 据存储)系统(作为全局数据库的数据组织方式) PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation21 2010年5月31日 金融行业十个业务主题域 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation22 2010年5月31日 § 参与方:所有银行事务过程中出现的个人、团体、机构等,从银行的角度进行 分析包括客户、员工、组织机构、组织机构等部分 § 产品:指银行提供给客户的各种服务,从大类来分有5个:存款、贷款、卡、投 资业务、服务业务等,具体到小的产品需要进行详细的认定,具有相同属性 或关联的产品可以组成产品组,例如综合理财卡等。 § 和约:银行事件中的参与者之间关于某项服务而签订的约定,合约体现了参与 者在事件中的地位、作用、服务的具体内容等,具有法律效力。 § 渠道:指客户获得银行信息或使用银行产品的媒介,渠道一般包括ATM、分行 柜台、电话、POS、呼叫中心、电视、广播、报纸、网络、信件、企业终端 等。 § 申请:是客户或潜在客户表达的与银行建立关系的意图。此信息类包括申请的 定义、申请所涉及到的团体、资产及地理区域;申请的活动及状态;申请表 相关内容。 § 事件:其他参与者通过银行、其他参与者与银行、银行内部发生的业务事件, 一个事件可以有多个参与者,一个参与者可以参与多个事件,在不同的事件 中,参与者可能担当不同的角色。例如开销户、存取款等。 § 统计:记录总账科目、余额、财务计划等相关信息的信息类。 § 营销活动:银行的营销策略、规划活动及对客户开展的一系列促销事件的组合 § 帐户:金融机构和客户之间为某种产品或金融服务签订的一种和约 § 财务:内部财务状况 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation23 2010年5月31日 数据仓库的特点:集成的 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation24 2010年5月31日 集成的目的 Ø消除冲突:不一致,同名异义、异名同义、 单位不统一等等,需要进行数据清理(因为来 源于不同的子系统,与不同的主要逻辑捆绑) Ø数据的综合和计算:可在抽取数据时;也可在 进入DW以后。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation25 2010年5月31日 数据集成是仓库建设的大问题 Ø数据仓库是多个数据源数据的综合 Ø数据必须转换成一个一致的格式 Ø对于一个典型的数据仓库系统建设项目中,数据集成 工作通常占到整个系统建设的80% Ø集成困难的原因: 缺乏元数据或者根本就不存在 数据质量很差 存在大量的空缺值 存在大量的同名异义或者同义异名的问题 不一致的语义 …… PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation26 2010年5月31日 数据的抽取、转化和加载 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation27 2010年5月31日 数据仓库的特点:相对稳定的 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation28 2010年5月31日 数据仓库的特点:相对稳定的 Ø一般不修改,只追加;过期限的数据可从 DW中移走(删去); Ø对DW,主要是查询,DWMS比DBMS要简 单 可不考虑并发控制 要考虑性能(因为查询数据量大)和界面友好(对高层管 理者) PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation29 2010年5月31日 数据仓库的特点:时间特性 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation30 2010年5月31日 数据仓库的特点:时间特性 Ø码键包含时间项 Ø不断增加新的数据内容; Ø删去过时的数据;例如:超过10年的数据 Ø与时间有关的综合数据:随时间变化而重新 组合 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation31 2010年5月31日 数据仓库的特点:时间特性 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation32 2010年5月31日 A、数据仓库基本概念 § 数据仓库技术产生的背景 § 什么是数据仓库技术 § 数据仓库技术与相关技术的比较和联系 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation33 2010年5月31日 数据库技术与数据仓库技术 Ø数据库技术在系统功能和性能需求 – 强调的是多用户环境下如何针对并发用户的增删改 操作,保证数据的一致性和可恢复性,并发用户的 吞吐量为数据库管理系统的重要性能指标 Ø数据仓库技术在系统功能和性能需求 – 强调的是大数据量环境下的高效、快速查询,查询的 吞吐量为数据仓库管理系统的重要性能指标 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation34 2010年5月31日 联邦数据库 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation35 2010年5月31日 数据仓库vs. 联邦数据库 Ø联邦数据库的优点 – 不需要冗余数据的拷贝 – 查询的结果反映所涉及数据的实时情况 – 安全策略更加方便 Ø联邦数据库的缺点 – 分析查询对于事务系统增加了额外的“Load”数据的开销 – 查询优化很难做得很好 – 历史数据可能不存在或者不可用 – “wrappers”的功能很复杂,需要在分析服务器和数据源 系统之间进行沟通 Ø在实践中数据仓库方法变得更加普遍 – 更好的性能 – 更低的复杂性 – 对于分析来说,缺少部分实时的数据是可以接受的 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation36 2010年5月31日 小结 Ø数据仓库只是解决了数据的问题 Ø如何更好地从数据中得到信息和利用信息,即对数据 进行挖掘 Ø对挖掘的数据能够方便地、多种角度地展现给终端用 户 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档