论数据仓库的数据架构设计

松小松

贡献于2017-02-14

字数:0 关键词:

2009 06 11 论数据仓库的数据架构设计 摘 要  数据架构设计是数据仓库技术的核心工作之一,本文结合通信企业数据仓库系统的建设案例, 简要论述数据架构的基本原理和主要设计特点。 张曙明 中国联通山东省分公司 济南 250001 关键词 数据仓库;数据架构;数据集市;集线器架构;总线架构 引言 企业信息化工作是“三分技术、七分管理和十二分 数据”,如何管理好并应用好数据是信息系统的根本。 实践表明,数据仓库技术是实现将数据转换为信息和知 识并有效支持决策的重要手段,而数据架构设计作为数 据仓库技术中的一项根本性基础工作,是对系统逻辑体 系结构和建模方式的描述,直接决定了数据仓库系统的 可管理性和可扩展性,在数据仓库系统的建设过程中具 有极其重要的作用。 本文结合通信企业中数据仓库系统建设案例的分 析,简要论述数据仓库技术中的集线器架构、总线架构 和混合数据架构的技术特点和主要设计方法。 1 典型的数据仓库架构方法 数据架构设计工作位于数据仓库过程的前期阶段。 目前主要存在两种典型的数据架构方式:集线器架构 和总线架构,这两种架构分别由数据仓库的创始者Bill Inmon和Ralph Kimball提出,代表着以数据驱动的自 顶向下的设计方法和以应用驱动的自下向上的设计方 法。 1.1 集线器架构 集线器架构采用自顶向下的设计方法,第一步是进 行全企业的数据建模和数据整合,按照ER模型建立原 子级数据仓库,然后对于各种部门级的应用再建立相应 的数据集市,数据集市的数据全部来源于统一的企业级 数据仓库。这种架构需要在初始阶段站在整个企业环境 的角度完成企业级的数据模型规划和设计工作,需要企 业内每个业务线的参与,达成概念和数据的完整性。原 子数据仓库中的数据是高质量的标准化的数据,所有应 用中的数据都是来源于统一的数据仓库,因此数据是一 致的。 以通信企业数据仓库为例,集线器架构示意图,如 图1所示。 在这个结构中,首先构建满足原子数据仓库需要的 企业级数据模型,客户关系系统、计费帐务系统、ERP 系统等生产系统是数据源,这些数据源中的全部数据首 先按照原有的数据模型被复制到数据准备区;数据然后 从数据准备区按照企业级数据模型被清洗转换装载到原 子数据仓库中,并按照ER模型建模,原子数据仓库是 企业级的且完成了各类数据的整合,它作为市场部、财 务部、帐务中心等各种最终用户应用分析的数据基础。 1.2 总线架构 总线架构采用自下向上的设计方法,按用户的需 求通过螺旋发展的过程来设计数据仓库。第一步是根据 特定业务过程按照维度模型建立数据集市,然后通过一 系列维度相同的数据集市递增地构建数据仓库,数据仓 库仅仅是构成它的全部数据集市的联合。其中分阶段建 立的数据集市是实现大规模数据仓库的基础,而且每一 个阶段建立的数据集市都是可以兼容并最终能够联合实 现数据仓库。不同数据集市之间通过创建一致性维度来 集成,每次增加数据集市,都必须整合一致性维度,并 Research & Development 信息通信技术12 将整合好的一致性维度同步更新到所有的数据集市。脱 离了一致性维度的粘合,数据集市只能是一个孤立的应 用。正因为预先建立的总线架构和一致性维度,所以这 种架构可以保证在逐步建立数据集市的过程中还能保证 企业数据的一致性。在这种方法中,可以把数据集市理 解为整个数据仓库系统的逻辑子集。 通信企业数据仓库总线架构示意图,如图2所示。 在这个结构中,与集线器架构相同,具有与数据源 系统数据相同的数据准备区,但是数据准备区的数据只 是根据数据集市业务需求的需要从源系统中转载;用户 发展、计费收入、财务收入等不同的数据集市从数据准 备区中抽取各自所需的数据,按照维度模型建模并作为 最终用户应用分析的数据;几个数据集市之间通过建立 一致性的产品维度、账目维度等实现数据的一致性。 1.3 小结 总结来说,两种架构各有优势。集线器架构建设周 期较长且设计复杂,初始阶段建立企业级数据模型和数 据标准以及相关的数据清洗整合工作,需要花费大量的 人力和时间,但是一旦建立起企业级数据模型,数据的 完整性和一致性问题就能够得到根本解决,针对需求变 图1 数据仓库集线器架构图 图2 数据仓库总线架构图 研究与开发 2009 06 13 基本架构原则进行实施。数据仓库的混合架构示意图, 如图3所示。 在这个结构中,客户关系系统、计费帐务系统、 ERP系统等生产系统中的需求数据首先按照原有的数据 模型被复制到数据准备区;然后数据在数据准备区被清 洗转换装载到原子数据仓库中,并按照ER模型建模, 作为原子级的数据基础;用户发展、计费收入、财务收 入等不同的数据集市从数据仓库中抽取各自所需的数 据,按照维度模型建模并作为最终用户应用分析的数 据。这种架构既利用了集线器架构系统级稳定性和一致 性的优点,又充分利用了总线架构快速部署和灵活扩展 的优点,保证整个数据仓库系统内企业数据的一致性和 完整性。 混合数据仓库架构方法的主要技术特点包括按照业 化易于扩展,后续的成本较低。总线架构首先着重于某 几个业务过程进行构建,以增量演进的方式简化企业级 数据仓库的实现过程,启动成本和设计方法较为简单, 通过维度建模方式将原子层和汇总层合二为一,可以快 速创建分析应用,但是企业级的稳定性和数据集市之间 数据的一致性需要持续维护一致性维度来保证,后续扩 展数据集市的工作量较大。两种架构的主要异同点,如 表1所示。 2 数据仓库的混合架构设计 在实际的数据仓库实施过程中,出于项目成本和项 目进度等方面的综合考虑,一般采用混合的数据仓库架 构方法。这种架构采用了总线架构和集线器架构相结合 的设计方法构建数据仓库,按照“松耦合、层次化”的 表1 集线器架构和总线架构异同点 集线器架构 从上向下 先建立全企业的原子级数据仓库,然后在此基础上建立部门级应用 非常复杂 面向主题,数据驱动 传统的ER模型 低 企业级的数据集成 源系统数据发生了较大的变化 需要很长的启动时间 较高的启动成本,较低的后续项目开发成本 总体方法 体系结构 复杂度 建模方法 建模工具 易访问性 数据集成度 数据变化度 交付时间 部署成本 总线架构 从下向上 按照业务过程建立数据集市,通过数据总线和一致性维度达到企业级的一致性 较为简单 面向过程,应用驱动 维度模型 高 独立业务领域内的数据集成 源系统数据相对稳定 可以快速部署应用 较低的启动成本,每个后续项目的成本接近 图3 数据仓库混合架构图 Research & Development 信息通信技术14 务需求分步构建、分层次保存数据、整合原子级的数据 标准、维护一致性维度等。 2.1 分步构建企业数据仓库 为简化构建企业数据仓库的复杂度,按照总线架构 的原理,根据业务应用的需要分阶段设计数据仓库,但 是针对业务应用不是直接建立维度化的数据集市,而是 先建立适用于各个数据集市的原子级的数据仓库,数据 集市再源于数据仓库而建立。整个过程按照业务需求提 出的顺序分两个阶段设计:第一阶段首先针对业务部门 最关心的业务收入、用户发展情况,以客户关系系统和 计费帐务系统的数据为基础,对客户主题、产品主题、 订单主题、帐单主题等数据进行整合,形成较完整的数 据仓库,并在此数据基础上针对计费收入和用户发展建 立两个数据集市;第二阶段根据财务收入分析的需要, 又引入ERP系统的数据并扩展到企业数据仓库内,建立 财务收入数据集市。每一个数据集市的数据都取自企业 级数据仓库,而且每一个数据集市都是可以供多个部门 的管理层和执行层进行访问,这样可以避免同样的数据 被多处复制,造成数据流向不一致的现象。 2.2 分层保存原始数据、明细数据和汇总数据 如图3所示,数据按照整合清洗的流向分层保存, 并按照应用特点采用不同的建模方式。数据准备区的 数据保留了来自源系统的原始数据,存储在ER模型的 二维表中,从而提高了数据提取效率,降低了对源系统 的资源占用。在数据仓库层中按照ER模型保存整合后 原子级的明细数据,即选取最明细级的不可细分的原子 数据作为数据仓库中的数据源。在数据集市层中按照维 度模型即星型模型或者雪花模型进行建模,对数据进行 必要的汇总和聚集,提高最终用户通常的汇总查询的效 率,并且根据业务需要导入明细数据支持最终用户明细 级的查询。如在计费收入数据集市的事实表中,在用 户、产品、账目层次上都是原子级的明细帐单,这些用 户级的数据源可以提供每一笔收入的最真实的分析角 度,以支持业务人员由汇总数据下钻到明细数据,帮助 用户从多角度、多层面观察数据,有助于端到端收入数 据的跟踪与分析。 2.3 对原子级数据进行企业级的集成整合 采用集线器架构方法建立客户、产品、账目的数 据标准,对不同生产系统中的数据在数据仓库层进行集 成,是最重要也是最复杂的工作之一。这里所说的集成 并不单纯是数据在物理上的集中,更重要的是数据在逻 辑上的集中,即数据的整合及一致性处理。由于客户关 系系统、计费帐务系统、ERP系统等几个数据源系统内 数据定义存在差异,移动网和固网业务之间的基本指标 定义也存在差异,单个系统内的实体属性也不完整,因 此必须对原有分散的数据经过系统清理、加工和整理才 能实现整合,通过数据之间的内在关联性、业务规则以 及数据转换逻辑和算法,消除源数据中的不一致性,实 现跨系统的数据统一和合并,保证数据仓库中每一个实 体属性的完整性,并包含历史数据。因此生产系统中数 据模型和定义的差异越大,集成整合的难度就越大。 在实施过程中我们明确计费帐务系统作为客户信 息、帐户信息、产品信息这些通用数据的唯一原子级数 据源,在此基础上建立唯一的数据编码和定义,通过采 集各系统间的接口数据,能有效避免与客户关系系统之 间数据逻辑转换的复杂性。以产品编码为例,选取计费 帐务系统的产品编码为基准定义,产品的主键在原子级 数据仓库中定义成一个唯一值,所有后续的开发必须使 用这个主键,从而保证整个数据仓库内不同数据集市之 间的查询不会产生冲突。例如产品主键为1110,产品名 称为普通电话,这个标识对于市场部门产品管理人员、 计费帐务人员和财务部门收入管理人员都相同。 2.4 设计并维护全局化的一致性维度 按照总线架构方法建立跨业务过程的一致性维度, 供所有数据集市使用,并在数据集市的不断扩展中持续 维护其一致性。一致性维度可以根据不同的数据集市的 需要进行多种分类,但其原子级取值需要完全一致。例 如在我们设计的第一阶段,通过对主题之间的维度进 行分析找出异同点,其中用户发展数据集市的分析维 度包括地域、入网时间、客户类别、产品等;计费收入 数据集市的分析维度包括地域、帐务时间、客户类别、 产品、账目等。由于其中客户类别、产品维度在数据源 研究与开发 2009 06 15 成功奠定良好基础。 参考文献 [1] [2] [3] [4] [5] Ralph Kimball,Margy Ross.The Data Warehouse Toolkit The Complete Guide to Dimesional Modeling.New York:Wiley Computer Publishing,2002: 1-27 Bill Inmon.Building The Data Warehouse[M]. 北京:机械工业出版社:1-86 Jerome.Kimball设计技巧导读,2007.[2009-10- 12].http://www.chinabi.net/blog/user1/ lastwood/archives/2007/1344.html Mary Breslin.Data Warehousing Battle of the Giants:Comparing the Basics of the Kimball and Inmon Models.Business Intelligence Journal,2004,9(1):6-20 Thilini Ariyachandra,Hugh J.Watson. W h i c h D a t a W a r e h o u s e Architecture Is Most Successful?Business Intelligence Journal,2006,11(1) 系统中都存在,而且两个数据集市也都使用,因此在设 计之初对原子级的维度定义进行一致性分析和关联性分 析,建立通用的全局化一致性维度,要求维度的主键、 属性定义和属性值一致,并在账目明细、业务订单等事 实表中共用这些一致性维度。在第二阶段,结合ERP中 财务数据的特点,又对原有的原子级产品、帐目等维度 进行了分类层级的扩展,将计费部门的产品、账目维度 和财务部门的产品、账目维度进行了合并,并同步到其 它所有相关的数据集市中,从而有效的将财务收入数据 和计费收入数据进行了关联,将财务收入指标、市场收 入指标、计费收入指标等紧密结合,直接穿透财务、帐 务、业务等多层数据,为跨两个业务过程的交叉查询奠 定了基础。 3 结束语 数据仓库系统的建设作为一项庞大复杂的系统工 程,其中的数据架构设计对项目实施成功与否起着至关 重要的作用。通信企业的数据仓库应用还处于起步阶 段,需要高度重视并充分研究学习和利用先进的架构设 计方法,结合业务应用需求和数据规划,在实践中不断 积累、完善和沉淀数据架构设计的经验,为数据仓库的 作者简历 张曙明 中国联通山东省分公司管理信息系统部高级工程师,主要从事信息化规划、数据管理工作。 Discussion of Data Architecture Design for Data Warehousing Zhang Shuming China United Network Communications Corporation Limited, Shandong Branch, Jinan 250001, China Abstract Data Architecture design is one of core work of the data warehouse technology. This paper briefly discusses the basic principles and main design methods of data architecture through a data warehouse system implementation case of a telecommunication enterprise. Keywords Data Warehouse; Data Architecture; Data Mart; Hub and Spoke Architecture; Bus Architecture Research & Development

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档