帮助传统企业实现大数据应用的数据架构

tony2007

贡献于2015-06-19

字数:0 关键词: 软件架构

郑保卫 | 恩核技术总监 | 2014.04.11 帮助传统企业实现大数据应用的 数据架构 1 传统企业大数据应准备的事项 2 传统企业数据管理及应用现状 3 支撑大数据应用的数据架构 目 录 3 Chapter 01 将分散在不同系统中,标准不统一、 结构不一致、内容不完整的数据整 合到数据仓库中。 构建标准单词字典 构建标准用语字典 构建标准域字典 构建标准编码字典 构建数据标准管理体系 提高竞争优势 减低成本 吸引新客户 2 传统企业数据管理及应用现状 5 Chapter 02 6 Chapter 02-1 数据标准化是对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值 规则等的定义基准。通过数据标准化可以防止用语的混乱使用,维持企业数据模型的一贯性,确保 数据的正确性及质量,并可以提高开发生产性和数据管理的一贯性和效率性。 数据标准化存在的问题 新增 需求 运维 难度 企业数据标准化体系 对业务用语、单词、域、编码 进行标准化 建立数据标准管理组织 设计数据标准化流程 实现企业数据标准化 提高数据品质、减少管理费用、提高数据治理效率 • 缺乏对企业数据标准和监控步骤的管理,从而 导致不能有效地管理数据 • 各系统使用不同的数据长度或数据类型,因此 数据迁移时易出现错误 • 欠缺数据命名和数据定义的标准 • 为了反映新需求时需要投入大量的时间了解数 据的含义从而不能及时地向用户提供所需信息 数据 统一 数据 整合 • 业务单位或模块单位进行系统开发,可能会出 现子系统间定义的数据不能相互使用的问题 • 构建企业数据仓库等整合性数据库时加大了数 据含义的理解难度和是判断重复存储的难度 • 缺乏数据标准政策,将相同含义的数据进行了 不同名称的命名及管理 • 相同名称的数据在各系统中以不同的含义使用 存在 问题 7 区分 诊断内容 主要现况及问题 结构 模型整合性差 . 未对行为主体进行整合,导致数据出现重复 . 未对具有类似功能的实体进行整合,模型中存在相似实体和属性。 数据质量差 . 数据完整性比较差,数据库很多表中存储的数据不够完整。 . 错误数据多,直接影响用户对系统的使用。 数据库性能差 . 除了部分表有主键索引外,大部分表没有索引,SQL语句在执行过程中,无法使用有效索引,直接 扫描表,导致性能问题会比较严重。 . 同时在线用户量多时(估计超过100个)系统性能问题应该会比较严重。 主外键合理性 . 有98张表没有主键,95%以上的表没有外键。 . 大部分表用ID作为主键,但ID不具有任何实际意义,如不为表创建唯一索引,则无法保证记录的唯 一性。 . 表之间关系不清晰,表关联存在困难,无法控制表关联深度,导致查询结果和性能无法保障。 扩展性差 . 基于流程设计数据模型,未能抽象出真正的实体。 . 新功能增加或业务扩展难度比较大。业务有所变化,都会导致数据库结构的修改和大量开发。 履历数据及范式 化问题 . 未设计履历数据管理的表,直接在原始数据上执行修改操作,导致有些业务数据无法被保存。 . 数据设计严重违反范式,数据完整性无法得到保障。 标准化及 管理 数据标准化 . 未对用语、域、命名规则进行标准定义。 . 部分属性存在同义词及同音异义词。 . 同样的列存在数据类型及长度不一致的现象。 文档化 . 从ERD和开发DB相比较可以发现没有同步化ERD,ERD中标记的PK没有在实际开发库中定义和创建。 业务规则详细化 . 未对实体及属性进行说明。 . 未对实体进行明确定义,日后主键、属性、集合的特性会随着定义方式的不同出现较大差异。 Chapter 02-3 3 支撑大数据应用的数据架构 9 Chapter 03 9 海量原始数据使用Big Data Platform (Hadoop) 业务关键数据使用现有数据仓库DW (RDBMS) 10 数据仓库 &大数据平台 实时查询 固定报表 OLAP 数据源 数据搜集 数据存储 数据分析 数据监测 及可视化 报表/OLAP Hadoop系统 原始数据 搜集模块 存储模块 概要数据 集市数据 ETL 分析/查询模块 食物中毒预 测地图 薄弱环 节调查 电子信访 农产品卫 生检查 海产品质量 检查  Hybrid DW : Hadoop与数据库各有优势,可以实现优势互补,共同构成数据仓库。在该混合结构中Hadoop用 于实现对原始数据的存储、清洗、ETL等的处理,并将Hadoop处理的数据表、数据集市表等数据导入到数据库 中,利用报表工具或OLAP工具向用户展现。 外部信息 (Social等) 服务日志 Chapter 03 EDW 11 Chapter 03 企业数据架构 设计企业级数据主题域 设计企业级概念模型 构建主数据管理体系 参考先进模型 数据模型 构建企业级数据标准字典 构建标准管理流程和体系 数据标准 构建企业级数据管理政策及流程 设置质量管控组织及定义角色 构建管控型元数据管理系统 数据管理体系 数据标准构建及管理方案 EDW数据建模及迁移方案 数据管理体系方案 12 企 业 信 息 系 统 制度和指南 数据标准及模型 管理体系 宣讲及应用 检查 数据用户 建模人员 系统开发员 系统分析员 数据架构主席 数据管理委员会 数据架构师 数据标准管理员 请求及使用 审批及管理 数据政策管理 企业数据管理原则 数据标准管理指南 数据架构方法论 数据标准管理 数据值管理 数据结构管理 请求制 定标准 请求结 构变更 查询 元数据 标准 应用 审核 标准 检查 结构 检查 培训 宣讲 企业数据管理方案 元数据管理系统 企业元数据库 数据分类体系 数据标准 数据模型 数据库对象 应用程序影响度分析 数据质量 Chapter 03 13 数据标准管理 需求事项管理 数据流管理 数据结构管理 数据运用管理 数据库管理 数据治理政策 数据治理质量改善 数据架构主席 (Chief Data Architect) 数据架构师 (Data Architect) 数据建模人员 (Data Modeler) 数据库管理员 (Database Administrator) 用户 数据管理 数据管理组织 数据管理组织角色 Chapter 03 14 Chapter 03 Inventory 解析 抽取 审批 退回 申请 业务规则 结构信息 数据质量 检验信息 质量验证基准 质量验证结果 应用代码 数据质量 数据库 应用程序影响度分析 数 据 管 理 平 台 反映 建模人员 企业架构 分类体系 标准 概念模型 主体领域 数据标准 数据标准/数据模型 e.g. DATAe.g. DATA e.g. Data Definitione.g. Data Definition EntEnt = Field= Field RelnReln = Address= Address e.g. Physical Data Modele.g. Physical Data Model EntEnt = Segment/Table/etc.= Segment/Table/etc. RelnReln = Pointer/Key/etc.= Pointer/Key/etc. e.g. Logical Data Modele.g. Logical Data Model EntEnt = Data Entity= Data Entity RelnReln = Data Relationship= Data Relationship e.g. Semantic Modele.g. Semantic Model EntEnt = Business Entity= Business Entity RelnReln = Business Relationship= Business Relationship List of Things ImportantList of Things Important to the Businessto the Business ENTITY = Class ofENTITY = Class of Business ThingBusiness Thing BuilderBuilder ENTERPRISEENTERPRISE MODELMODEL DesignerDesigner SYSTEMSYSTEM MODELMODEL TECHNOLOGYTECHNOLOGY MODELMODEL DETAILEDDETAILED REPRESENTATIONSREPRESENTATIONS SubSub --ContractorContractor FUNCTIONINGFUNCTIONING PlannerPlanner OwnerOwner SCOPESCOPE ENTERPRISEENTERPRISE CONTEXTUALCONTEXTUAL CONCEPTUALCONCEPTUAL LOGICALLOGICAL PHYSICALPHYSICAL OUTOUT--OFOF CONTEXTCONTEXT DATADATA WhatWhat e.g. DATAe.g. DATA e.g. Data Definitione.g. Data Definition EntEnt = Field= Field RelnReln = Address= Address e.g. Physical Data Modele.g. Physical Data Model EntEnt = Segment/Table/etc.= Segment/Table/etc. RelnReln = Pointer/Key/etc.= Pointer/Key/etc. e.g. Logical Data Modele.g. Logical Data Model EntEnt = Data Entity= Data Entity RelnReln = Data Relationship= Data Relationship e.g. Semantic Modele.g. Semantic Model EntEnt = Business Entity= Business Entity RelnReln = Business Relationship= Business Relationship List of Things ImportantList of Things Important to the Businessto the Business ENTITY = Class ofENTITY = Class of Business ThingBusiness Thing BuilderBuilder ENTERPRISEENTERPRISE MODELMODEL DesignerDesigner SYSTEMSYSTEM MODELMODEL TECHNOLOGYTECHNOLOGY MODELMODEL DETAILEDDETAILED REPRESENTATIONSREPRESENTATIONS SubSub --ContractorContractorSubSub --ContractorContractor FUNCTIONINGFUNCTIONING PlannerPlanner OwnerOwner SCOPESCOPE ENTERPRISEENTERPRISE CONTEXTUALCONTEXTUAL CONCEPTUALCONCEPTUAL LOGICALLOGICAL PHYSICALPHYSICAL OUTOUT--OFOF CONTEXTCONTEXT DATADATA WhatWhat 概念、逻辑、物理 单词、用语 命名规则 编码 域 数据标准 综 合 Portal 应用程序 业务规则 数据标准 数据库信息 数据质量信息 应用影响度 集成资料库 元数据库 变 更 的 影 响 度 信 息 数据模型 用户、权限 统计及分析报告 结构 应用结构 关联信息 数据库 投诉日常 处理详细 投诉纠纷处 理详细 VOC履历详细 商谈. 商谈履历 销售信息 年销售额 融资. 个人贷款客户 融资. 个人金融交易 融资 信誉管理 保险 担保人 融资 财产担保 融资 客户来源 融资 网络申请客户 融资 融资履历 融资. 保证人信息 OLAP 被保人 OLAP 投保人 OLAP. 受益人 OLAP. 受理人 Anycar. 紧急受理 个人附加信息 签约人 签约明细 团险 家庭成员 行业被人情况 行业客户信息 企业更新率 受限客户 合作伙伴 Internet. 家庭成员申请书 Internet. 会员申请书 Internet. 会员信息 Speed. 共享客户 Speed. 非共享客户 Speed. 临时共享客户 TM客户基本 信息 TM客户详细信息 TM客户履历信息 TM.积分 客户签约事项 客户地址履历 客户评估等级 资格事项 客户住房及 收入信息 家庭成员 客户活动信息 . . . . 数据仓库建模- 客户数据整合模型案例 Chapter 03 OLTP客户 其他业务客户 最大程度整合后的客户 不同类型的客户分类 数据仓库建模- 客户数据整合模型案例 Chapter 03 实体整合 属性整合 . . . 数据仓库建模- 实体及属性整合模型案例 Chapter 03 ……… 数据仓库建模- 客户活动信息整合模型案例 Chapter 03  确保外部数据十分重要  制定最大化确保外部(行业)数据的方案  确保数据能够满足分析的要求 数据仓库建模- 外部信息整合模型案例 Chapter 03 Data Warehouse Front-End systems Data Mart 数据仓库建模- 外部信息整合模型案例 Chapter 03 整合 约20万条 约500万条 数据仓库建模- 外部信息整合模型案例 Chapter 03 ……… ……… 数据仓库建模- 抽取特定信息整合客户收入模型案例 Chapter 03 申请事项评价 贷款批准及打回原因 利用延期天数判定的客户等级 利用最近3个月的收纳内容判定分数 VIP 客户中有无 信用不良客户 赠品等级 加盟客户等级、合作伙伴等级 客户信用关连综合信息 ……… 数据仓库建模- 整合新实体模型案例 Chapter 03 Time AA BB 10 20 30 10 1 2 1 3 5 数据仓库建模- 历史数据管理模型案例 Chapter 03 数据仓库建模- 范式化模型案例 Chapter 03 数据仓库建模- 范式化模型案例 Chapter 03 table table table table table table table table table table table table view view view view view view 数据仓库建模- 数据集市模型案例 Chapter 03 28 * BR : Business Rule 应用 Data Dictionary DW Database 1 2 3 4 5 7 8 9 Documents Data Dictionary OLTP Database 6 数据仓库建模及数据迁移流程 Chapter 03 Thank you

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档