数据仓库知识介绍(3)

wuyitt205

贡献于2015-11-25

字数:0 关键词: 数据挖掘

2010年5月31日 DWDW的相关的基础理论与方法的相关的基础理论与方法 吴文辉 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation2 2010年5月31日 AA、数据仓库基本概念、数据仓库基本概念 BB、数据仓库系统、数据仓库系统 CC、联机数据分析、联机数据分析 DD、数据挖掘技术、数据挖掘技术 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation3 2010年5月31日 D、数据挖掘技术 进化阶段 商业问题 支持技术 产品厂家 产品特点 数据搜集 (60年代) “过去五年中我的总收 入是多少?” 计算机、磁带和磁盘 IBM,CDC 提供历史性的、静态 的数据信息 数据访问 (80年代) “在纽约的分部去年三 月的销售额是多 少?” 关系数据库 (RDBMS),结 构化查询语言 (SQL),ODBC Oracle、Sybase、 Informix、IBM、 Microsoft 在记录级提供历史性 的、动态数据信息 数据仓库;决策支持 (90年代) “在纽约的分部去年三 月的销售额是多少? 洛杉矶据此可得出 什么结论?” 联机分析处理 (OLAP)、多维 数据库、数据仓库 Pilot、Comshare、 Arbor、Cognos、 Microstrategy 在各种层次上提供回 溯的、动态的数据 信息 数据挖掘 (正在流行) “下个月洛杉矶的销售 会怎么样?为什 么?” 高级算法、多处理器 计算机、海量数据 库 Pilot、Lockheed、IBM、 SGI、其他初创公 司 提供预测性的信息 数据挖掘的进化历程 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation4 2010年5月31日 数据挖掘产生的原因 大量信息在给人们带来方便的同时也带来了 一大堆问题: § 第一是信息过量,难以消化; § 第二是信息真假难以辨识; § 第三是信息安全难以保证; § 第四是信息形式不一致,难以统一处理。 人们开始提出一个新的口号:“要学会抛弃 信息”。 “如何才能不被信息淹没,而是从中及时发 现有用的知识、提高信息利用率?” PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation5 2010年5月31日 数据挖掘定义 § 数据挖掘(Data Mining)就是从大量的、不 完全的、有噪声的、模糊的、随机的实际应 用数据中,提取隐含在其中的、人们事先不 知道的、但又是潜在有用的信息和知识的过 程。 § 数据挖掘其实是一类深层次的数据分析方法 数据挖掘是一种新的商业信息处理技术,其主要特点是 对商业数据库中的大量业务数据进行抽取、转换、分析和其 他模型化处理,从中提取辅助商业决策的关键性数据。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation6 2010年5月31日 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联 机应用分析)的本质区别是数据挖掘是在没有 明确假设的前提下去挖掘信息、发现知识.数 据挖掘所得到的信息应具有先前未知,有效和 可实用三个特征. 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘 是要发现那些不能靠直觉发现的信息或知识,甚至是违背直 觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价 值. 典型案例:尿布与啤酒 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation7 2010年5月31日 数据挖掘和在线分析处理(OLAP) § 完全不同的工具,基于的技术也大相径庭。 § OLAP是先建立一系列的假设,然后通过OLAP来证实 或推翻这些假设来最终得到自己的结论。OLAP分析 过程在本质上是一个演绎推理的过程。 § 数据挖掘不是用于验证某个假定的模式(模型)的正 确性,而是在数据库中自己寻找模型。数据挖掘在本 质上是一个归纳的过程。 § 数据挖掘和OLAP具有一定的互补性。OLAP可以帮你 探索数据,找到哪些是对一个问题比较重要的变量, 发现异常数据和互相影响的变量。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation8 2010年5月31日 -数据挖掘发现的知识种类 Ø广义知识(Generalization) ----广义知识指类别特征的概括性描述知识。根据数据的微观 特性发现其表征的、带有普遍性的、较高层次概念的、中观 和宏观的知识,反映同类事物共同性质,是对数据的概括、 精炼和抽象。 Ø关联知识(Association) ----它反映一个事件和其他事件之间依赖或关联的知识。 Ø分类知识(Classification&Clustering) ----它反映同类事物共同性质的特征型知识和不同事物之 间的差异型特征知识。最为典型的分类方法是基于决 策树的分类方法。 Ø预测型知识(Prediction) ----它根据时间序列型数据,由历史的和当前的数据去推测未 来的数据,也可以认为是以时间为关键属性的关联知识。 偏差型知识(Deviation) ----它是对差异和极端特例的描述,揭示事物偏离常规的异常 现象,如标准类外的特例,数据聚类外的离群值等。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation9 2010年5月31日 数据挖掘的功能(一) 数据挖掘通过预测未来趋势及行为,做出前瞻的、基 于知识的决策。数据挖掘的目标是从数据库中发现隐 含的、有意义的知识。主要有以下五类功能。 «自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行 大量手工分析的问题如今可以迅速直接由数据本身得出结论。 一个典型的例子是市场预测问题,数据挖掘使用过去有关促 销的数据来寻找未来投资中回报最大的用户 «关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两 个或多个变量的取值之间存在某种规律性,就称为关联。关 联可分为简单关联、时序关联、因果关联。关联分析的目的 是找出数据库中隐藏的关联网。有时并不知道数据库中数据 的关联函数,即使知道也是不确定的,因此关联分析生成的 规则带有可信度。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation10 2010年5月31日 数据挖掘的功能(二) «聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚 类增强了人们对客观现实的认识,是概念描述和偏差分析的 先决条件。聚类技术主要包括传统的模式识别方法和数学分 类学。 «概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特 征。概念描述分为特征性描述和区别性描述,前者描述某类对象的 共同特征,后者描述不同类对象之间的区别。生成一个类的特征性 描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很 多,如决策树方法、遗传算法等。 «偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意 义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则 的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏 差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation11 2010年5月31日 数据挖掘常用技术(1) «人工神经网络 一个神经网络划分为输入层、输出层和隐含层(见图4)。 输入层的每个节点对应一个个的预测变量。输出层的节点对 应目标变量,可有多个。在输入层和输出层之间是隐含层 (对神经网络使用者来说不可见),隐含层的层数和每层节 点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前 面的节点(称为此节点的输入节点)连接在一起,每个连接 对应一个权重Wxy,此节点的值就是通过它所有输入节点的 值与对应连接权重乘积的和作为一个函数的输入而得到,我 们把这个函数称为活动函数或挤压函数。 调整节点间连接的权重就是在建立(也称训练)神经网络 时要做的工作。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation12 2010年5月31日 数据挖掘常用技术(2) «决策树 决策树提供了一种展示类似在什么条件下会得到什么值这类规 则的方法。比如,在贷款申请中,要对申请的风险大小做出判断, 图7是为了解决这个问题而建立的一棵决策树,从中我们可以看到 决策树的基本组成部分:决策节点、分支和叶子。 建立决策树的过程,即树的生长过程是不断的把数据进行切分 的过程,每次切分对应一个问题,也对应着一个节点。对每个切 分都要求分成的组之间的“差异”最大。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation13 2010年5月31日 数据挖掘常用技术(3) «遗传算法 基于进化理论,并采用遗传结合、遗传变异、以及自然 选择等设计方法的优化技术。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation14 2010年5月31日 数据挖掘常用技术(4) «近邻算法 将数据集合中每一个记录进行分类的方法。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation15 2010年5月31日 数据挖掘常用技术(2) «规则推导 从统计意义上对数据中的“如果-那么”规则进行寻找和 推导。 PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn 高伟达软件技术有限公司 © 2005 GITCorporation16 2010年5月31日 数据挖掘过程 Ø 确定业务对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预 测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的. Ø 数据准备 1.数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据. 2.数据的预处理 研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型. 3.数据的转换 将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法 的分析模型是数据挖掘成功的关键. 4. 数据挖掘 对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自 动地完成. 5. 结果分析 解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术. 6. 知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去. PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档