数据仓库知识介绍(2)

wuyitt205

贡献于2015-11-25

字数:0 关键词: 数据挖掘

2010年5月31日 DWDW的相关的基础理论与方法的相关的基础理论与方法 吴文辉 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation2 2010年5月31日 AA、数据仓库基本概念、数据仓库基本概念 BB、数据仓库系统、数据仓库系统 CC、联机数据分析、联机数据分析 DD、、BIBI产品的分类产品的分类 EE、数据挖掘技术、数据挖掘技术 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation3 2010年5月31日 小结 Ø数据仓库只是解决了数据的问题 Ø如何更好地从数据中得到信息和利用信息,即对数据 进行挖掘 Ø对挖掘的数据能够方便地、多种角度地展现给终端用 户 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation4 2010年5月31日 B、数据仓库系统 § 数据仓库系统包括: ①数据仓库技术; ②联机分析处理技术(On-Line Analytical Processing,简称OLAP); ③数据挖掘技术(Data Mining,简称DM); PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation5 2010年5月31日 商业智能BI § 商业智能也称作BI,是英文单词Business Intelligence 的缩写。 § 商业智能通常被理解为将企业中现有的数据转化为知 识,帮助企业做出明智的业务经营决策的工具。 § 商业智能能够辅助的业务经营决策,既可以是操作层 的,也可以是战术层和战略层的决策。 § 为了将数据转化为知识,需要利用数据仓库、联机分 析处理(OLAP)工具和数据挖掘等技术。 § 从技术层面上讲,商业智能不是什么新技术,它只是 数据仓库、OLAP和数据挖掘等技术的综合运用。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation6 2010年5月31日 BI定义为下列工具的集合 Ø终端用户查询和报告工具。专门用来支持初级用户的 原始数据访问,不包括适应于专业人士的成品报告生 成工具。 ØOLAP工具。提供多维数据管理环境,其典型的应用 是对商业问题的建模与商业数据分析。OLAP也被称 为多维分析。 Ø数据挖掘(Data Mining)软件。使用诸如神经网络、 规则归纳等技术,用来发现数据之间的关系,做出基 于数据的推断。 Ø数据仓库(Data Warehouse)和数据集市(Data Mart)产品。包括数据转换、管理和存取等方面的预 配置软件,通常还包括一些业务模型,如财务分析模 型。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation7 2010年5月31日 C、联机分析处理(On-Line Analytical Processing ) 联机分析处理 (OLAP) 的概念最早是由关系 数据库之父E.F.Codd于1993年提出的,他同 时提出了关于OLAP的12条准则。 § 联机事务处理OLTP(on-line transaction processing) OLTP是传统的关系型数据库的主要应用,主要是基本的、日 常的事务处理,例如银行交易。 § 联机分析处理OLAP(On-Line Analytical Processing) OLAP是数据仓库系统的主要应用,支持复杂的分析操作, 侧重决策支持,并且提供直观易懂的查询结果。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation8 2010年5月31日 OLAP和OLTP的区别 OLTP OLAP 用户 操作人员,低层管理人员 决策人员,高级管理人员 功能 日常操作处理 分析决策 DB设计 面向应用 面向主题 数据 当前的,最新的细节的,二维的 分立的 历史的,聚集的,多维的集成的, 统一的 存取 读/写数十条记录 读上百万条记录 工作单 位 简单的事务 复杂的查询 用户数 上千个 上百个 DB大小 100MB-GB 100GB-TB PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation9 2010年5月31日 OLAP的特点 § OLAP是使分析人员、管理人员或执行人员 能够从多角度对信息进行快速、一致、交互 地存取,从而获得对数据的更深入了解的一类 软件技术。 § OLAP的目标是满足决策支持或者满足在多 维环境下特定的查询和报表需求,它的技术核 心是"维"这个概念。 “维”是人们观察客观世界的角 度,是一种高层次的类型划分。“维”一般包含着层次关系, 这种层次关系有时会相当复杂。通过把一个实体的多项重要 的属性定义为多个维(dimension),使用户能对不同维上的 数据进行比较。 OLAP也可以说是多维数据分析工具的集合。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation10 2010年5月31日 OLAP 多维分析操作(一) § 钻取(roll up和drill down) 钻取是改变维的层次,变换分析的粒度,包括: – 向上钻取(roll up) roll up是在某一维上将低层次的细节数据概括到高层次的汇 总数据,或者减少维数; – 向下钻取(drill down) drill down则相反,它从汇总数据深入到细节数据进行观察 或增加新维 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation11 2010年5月31日 OLAP 多维分析操作(二) § 切片(slice) § 切块(dice) 切片和切块是在一部分维上选定值后,关心度量数据在剩余 维上的分布。如果剩余的维只有两个,则是切片;如果有三 个,则是切块。 § 旋转(pivot) 旋转是变换维的方向,即在表格中重新安排维的放置(例如 行列互换) § 钻过(drill across) 钻过是指从一个事实表通过外键关联到另一个,或多个事实 表上.即执行涉及多个事实表的查询。 § 钻透(drill through) 钻透则是使用关系数据库SQL机制.钻到数据立方体的底层, 到后端关系表进行统计汇总。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation12 2010年5月31日 OLAP的几个基本概念 Ø维(Dimension):是人们观察数据的特定角度,是 考虑问题时的一类属性,属性集合构成一个维(时间 维、地理维等)。 Ø维的层次(Level):人们观察数据的某个特定角度 (即某个维)还可以存在细节程度不同的各个描述方 面(时间维:日期、月份、季度、年)。 Ø维的成员(Member):维的一个取值,是数据项在 某维中位置的描述。(“某年某月某日”是在时间维上位 置的描述)。 Ø度量(MeASure):多维数组的取值。(2000年1月, 上海,笔记本电脑,$100000)。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation13 2010年5月31日 OLAP的分类 OLAP系统按照其存储器的数据存储格式可以 分为 Ø关系OLAP(Relational OLAP,简称 ROLAP)、 Ø多维OLAP(Multidimensional OLAP,简称 MOLAP) Ø混合型OLAP(Hybrid OLAP,简称HOLAP) 三种类型。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation14 2010年5月31日 ROLAP ROLAP将分析用的多维数据存储在关系数据库 中并根据应用的需要有选择的定义一批实视 图作为表也存储在关系数据库中。 ROLAP主要通过一些软件工具或中间软件实现, 物理层仍采用关系数据库的存储结构,因此 称为虚拟OLAP(VirtualOLAP)。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation15 2010年5月31日 MOLAP MOLAP将OLAP分析所用到的多维数据物理上 存储为多维数组的形式,形成“立方体”的 结构。维的属性值被映射成多维数组的下标 值或下标的范围,而总结数据作为多维数组 的值存储在数组的单元中。由于MOLAP采用 了新的存储结构,从物理层实现起,因此又 称为物理OLAP(PhysicalOLAP); PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation16 2010年5月31日 HOLAP 基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维 矩阵型的。这种方式具有更好的灵活性。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation17 2010年5月31日 ROLAP和MOLAP的对比 rolap molap 沿用现有的关系数据库的技术 专为olap所设计 响应速度比molap慢; 现有关系型数据库已经对olap做了很多优化,包 括并行存储、并行查询、并行数据管理、基于成 本的查询优化、位图索引、sql 的olap扩展 (cube,rollup)等,性能有所提高 性能好、响应速度快 数据装载速度快 数据装载速度慢 存储空间耗费小,维数没有限制 需要进行预计算,可能导致数据爆炸,维数有限;无 法支持维的动态变化 借用rdbms存储数据,没有文件大小限制 受操作系统平台中文件大小的限制,难以达到tb 级 (只能10~20g) 可以通过sql实现详细数据与概要数据的存储 缺乏数据模型和数据访问的标准 –不支持有关预计算的读写操作 –sql无法完成部分计算 –无法完成多行的计算 –无法完成维之间的计算 –支持高性能的决策支持计算 –复杂的跨维计算 –多用户的读写操作 –行级的计算 维护困难 管理简便 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation18 2010年5月31日 OLAP的两种数据模型-星形模型 该数据结构的中心是主表,里面包含了所有分析维度的外键,以及所有的指标,可计算推导的财务 指标不计在内,我们称之为事实表(Fact Table)。周围的表分别是对应于各个分析角度的维表 (Dimension Table),每个维表除了主键以外,还包含了描述和分类信息。无论原来的业务数据 的数据结构为何,只要原业务数据能够整理成为以上模式,则无论业务人员据此提出任何问题,都 可以用SQL语句进行表连接或汇总(table join and group by)实现数据查询和解答。(当然,有 一些现成的ROLAP前端分析工具是可以自动根据以上模型生成SQL语句的)。这种模式被称为星 型模式(Star-Schema),可应用于不同的联机分析处理应用中。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation19 2010年5月31日 典型的星形模型 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation20 2010年5月31日 OLAP的两种数据模型-雪花模型 有时候维表的定义会变得复杂,例如对产品维,既要按产品种类进行划分,对某些特殊商品,又要另 外进行品牌划分,商品品牌和产品种类划分方法并不一样。因此,单张维表不是理想的解决方案,可 以采用以下方式,这种数据模型实际上是星型结构的拓展,我们称之为雪花型模式(snow-flake schema). PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation21 2010年5月31日 OLAP产品介绍(一) Ø Hyperion Essbase OLAP Server 具有几百个计算公式,支持过程的脚本预置,及统计和基于 维的计算。 强大的OLAP查询能力,利用EssbaseQueryDesigner,商业 用户可以不用IT人员的帮助自己构件复杂的查询。 丰富的前端工具,有30多个前端工具可供选择,其中包括 Hyperion自己的WiredforOLAP、SPIder- ManWebApplication、objects、EssbaseSpreadsheetAdd- In、WebGAteway、Reporting。 易用:可通过Excel,Lotus1-2-3和各种浏览器访问系统。 Ø ORACLE EXPress Server提供全面的OLAP能力,有全球 超过3000家用户 用户可通过Web和电子表格使用 灵活的数据组织方式,数据可以存放在ExpressServer内,也 可直接在RDB上使用 有内建的分析函数和4GL来用户自己定制查询 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation22 2010年5月31日 OLAP产品介绍(二) § CognOS PowerPlay, 只用鼠标点击、拖拉就可以浏览多维数据 自动利用Web发布得到的分析报告 支持多种OLAPServer:MicrosoftOLAPServices、Hyperion Essbase、SAPBW、IBM OLAP for DB2 完备的授权和安全体系 § NovaView,是Microsoft SQL Server7.0OLAPServices的客 户端应用程序。 § MicroStrategy 具有强大的分析能力 以Web为中心的界面 支持上百万的用户和TB的数据 快速开发能力,可直接利用已有的数据模式 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation23 2010年5月31日 OLAP产品介绍(二) § CognOS PowerPlay, 只用鼠标点击、拖拉就可以浏览多维数据 自动利用Web发布得到的分析报告 支持多种OLAPServer:MicrosoftOLAPServices、Hyperion Essbase、SAPBW、IBM OLAP for DB2 完备的授权和安全体系 § NovaView,是Microsoft SQL Server7.0OLAPServices的客 户端应用程序。 § MicroStrategy 具有强大的分析能力 以Web为中心的界面 支持上百万的用户和TB的数据 快速开发能力,可直接利用已有的数据模式 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation24 2010年5月31日 OLAP产品介绍(三) Ø Business Objects BusinessObjects,是易用的BI工具,允许用户存取、分析和 共享数据。 可应用多种数据源:RDB,ERP,OLAP,Excel等 可应用VBA和开放式对象模型来进行开发定制 Ø IBMDB2OLAPServer,是强大的多维分析工具,把 HyperionEssbase的OLAP引擎和DB2的关系数据库集成在 一起。 与EssbaseAPI完全兼容 数据用星型模型存放在关系数据库DB2中 Ø Brio Brio.Enterprise,是强大的易用的BI工具,提供查询,OLAP 分析和报告的能力 支持多种语言,包括中文 Brio.Report,强大的企业级报告工具 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档