如何获取全视角的商业智能-商业智能领域中数据集成的重要性

岩鹰001

贡献于2015-08-05

字数:0 关键词: 数据挖掘

如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能如何获取全视角的商业智能 -商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性商业智能领域中数据集成的重要性 丁朝阳丁朝阳丁朝阳丁朝阳 IBM SWG 高级信息集成咨询顾问高级信息集成咨询顾问高级信息集成咨询顾问高级信息集成咨询顾问 “数据看来不正确” – 业务用户 “我没有我需要的数 据” – 业务分析员 “我们没有利用我们的 信息” – 架构师 纠结纠结纠结纠结: : : : 如何理解我们拥有的信息资产如何理解我们拥有的信息资产如何理解我们拥有的信息资产如何理解我们拥有的信息资产 “我如何能知道我 拥有高质量的数 据” –数据拥有 者 “我需要跨系统的理解我的数 据”– 数据分析者 “我不了解业务人员 要什么?” – 开发者 83% 数据集成项目 需要重复实施甚至失败 消费者缺乏信心 无效和重复性工 作增加运作成本 如果信息缺乏管理如果信息缺乏管理如果信息缺乏管理如果信息缺乏管理,,,,会带给我们什么会带给我们什么会带给我们什么会带给我们什么???? 错误或不完整数据导致 BI 和CRM 系统 不能正常 发挥优势甚至失效 低劣数据质量严重地降低 公司年收入 无法预测商机而造成损失,比事后 弥补将多达 10~100 倍 25% 时间浪费在 辨别数据是否“坏数据 ” 痛失商机 有内涵有内涵有内涵有内涵((((In Context )))) Real-time delivery of relevant information when and where it’s needed 富有洞察富有洞察富有洞察富有洞察((((Insightful )))) Derive meaning from information challenges 可信赖的信息是什么可信赖的信息是什么可信赖的信息是什么可信赖的信息是什么???? needed 完整完整完整完整((((Complete )))) Related information reconciled into a single and holistic view 准确准确准确准确((((Accurate )))) Complex and disparate data transformed, cleansed and delivered 你需要一个对信息灵活管理你需要一个对信息灵活管理你需要一个对信息灵活管理你需要一个对信息灵活管理,,,,整合整合整合整合,,,,分析的平台分析的平台分析的平台分析的平台 分析分析分析分析 整合整合整合整合 交易系统 管理管理管理管理 业务分析 应用 Cubes Big Data Master Data 外部信息源 Cubes Streams Content Data Streaming Information Data Warehouses 管控管控管控管控 Quality Security & PrivacyLifecycle 对症下药对症下药对症下药对症下药: : : : 8888个有用的良方个有用的良方个有用的良方个有用的良方((((最佳实践最佳实践最佳实践最佳实践) 没有解决所有问题的万能药没有解决所有问题的万能药没有解决所有问题的万能药没有解决所有问题的万能药 需要从多方面对症下药需要从多方面对症下药需要从多方面对症下药需要从多方面对症下药 找出你最最痛心的问题找出你最最痛心的问题找出你最最痛心的问题找出你最最痛心的问题 首先搞定它首先搞定它首先搞定它首先搞定它!!!! 策略策略策略策略####1111 ––––深刻了解源系统深刻了解源系统深刻了解源系统深刻了解源系统 业务业务业务业务数据数据数据数据 2. 确保数据能够符合已知业务业务业务业务 分析分析分析分析 数据数据数据数据 分析分析分析分析 1. 发现数据的实际特征 2. 确保数据能够符合已知 的业务规则 3. 报告当前的数据现状 最佳实践最佳实践最佳实践最佳实践: : : : 自动的数据特征发现自动的数据特征发现自动的数据特征发现自动的数据特征发现 勿需编程 忠告: 你没有时间和金钱以及足 够的精力去手工检测数据 表和主键分析表和主键分析表和主键分析表和主键分析 字段分 字段分字段分 字段分 析 析析 析 Source 1 Source 2 Foreign Key & Duplicate Analysis 外键和重复数据分析外键和重复数据分析外键和重复数据分析外键和重复数据分析 策略策略策略策略 ####2 2 2 2 –––– 内部数据质量内部数据质量内部数据质量内部数据质量 • 是同样的公司/个人吗? • 是同样的地址吗? • 一样的产品吗? • 相同的用法吗? NAME ADDRESS IBM 187 N. Pk. Str. Salem NH 01456 I.B.M. Inc. 187 N. Pk. St. Sarem NH 01456 International Bus. M. 187 No. Park St Salem NH 04156 Int. Bus. Machines 187 Park Ave Salem NH 01456 Inter-Nation Consult. 15 Main St. Andover MA 02341 Int. Bus. Consultants PO Box 9 Boston MA 02210 I.B. Manufacturing Park Blvd. Boston MA 04106 PART DESCRIPTION WING ASSY DRILL 4 HOLE USE 5J868A HEXBOLT ¼ INCH WING ASSEMBLY, USE 5J868-A HEX BOLT .25 ”– DRILL FOUR HOLES USE 4 5J868A BOLTS (HEX .25) – DRILL HOLES FOR EA ON WING ASSEM RUDER, TAP 6 HOLES, SECURE W/KL 2301 RIVETS (10 CM) Spelling ErrorsLack of Standards in Synonyms, Acronyms, Abbreviations Error Codes? Assembly Part Size Instruction Blk 1 |First St|05-00 Blk 1 |First St|05-00 1 |First St|#05-00 Blk 1 |First St|#05-00 Building | Street | Unit 最佳实践最佳实践最佳实践最佳实践: : : : 数据清理数据清理数据清理数据清理 数据的再造数据的再造数据的再造数据的再造 Blk 1, 1 St, 05-00 05-00 Frist St, Block 1 1 First Str, #05-00 Block 1, First Str, #05-00 1, St, #05-00 Original 1 |St |#05-00 标准化标准化标准化标准化 Blk 1 |First St|05-00 Blk 1 |First St|05-00 1 |First St|#05-00 Blk 1 |First St|#05-00 1 |St |#05-00 Building | Street | Unit 匹配匹配匹配匹配 生成生成生成生成 #05-00, Blk 1, First St #05-00, 1, St Final Result 策略策略策略策略 #3 #3 #3 #3 –––– 公共元数据共享公共元数据共享公共元数据共享公共元数据共享 Customer CustomerNumber Name Address Comments From Data Model CustomerTbl CustomerID Name Address Address1 Comments From ETL Tool The Identifier of customers that are tracked for ordering purposes. Corporate customer identifiers are assigned by the Sales Data Controller according to the corporate data description and naming policy for reference identifiers. Unique identifier of customers that are tracked for ordering purposes. CustomerDetails CustomerNumber Name Address Remarks From BI Tool Customer ID Name Address1 Address2 Descr From Database for ordering purposes. Values start with 02 for non-Corporate customers and 01 for Corporate customers. Customer’s identifier numbers. Values start with 01 for Corporate customers, 02 for non-Corporate customers, 03 for overseas-based Customers. 哪个元数据信息是正确的哪个元数据信息是正确的哪个元数据信息是正确的哪个元数据信息是正确的???? 哪个是当前正在使用的哪个是当前正在使用的哪个是当前正在使用的哪个是当前正在使用的???? 哪个是即将用到的哪个是即将用到的哪个是即将用到的哪个是即将用到的? 最佳实践最佳实践最佳实践最佳实践: : : : 建立一个公共元数据库建立一个公共元数据库建立一个公共元数据库建立一个公共元数据库 整合的公共 元数据库 Modeling tool BI tool BI Repository COBOL definition files Other sources’ definition files ETL Tool + Processes 从不同的应用和源系从不同的应用和源系从不同的应用和源系从不同的应用和源系 统中整合元数据统中整合元数据统中整合元数据统中整合元数据 Category: Costs Term: Tax Expense Full Name: Tax to be paid on Gross Income “The expense due to taxes …..” (John Walsh is responsible for updates. 90% reliable source) Status: CURRENT Database = DB2 Schema = NAACCT Table = DLYTRANS Column = TAXVL data type = Decimal (14,2) Derivation: SUM(TRNTXAMT) 最佳实践最佳实践最佳实践最佳实践:建立统一的业务术语建立统一的业务术语建立统一的业务术语建立统一的业务术语 共享元数据 Status: CURRENT 在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表在业务人员和技术人员之间建议一套统一的术语表!!!! InfoSphere DataStage InfoSphere Business Glossary 建立对数据血统的追踪建立对数据血统的追踪建立对数据血统的追踪建立对数据血统的追踪 在在在在BIBIBIBI应用中访问业务元数据应用中访问业务元数据应用中访问业务元数据应用中访问业务元数据 IBM Confidential 策略策略策略策略#4 #4 #4 #4 –––– 与任何地方的任何系统相连与任何地方的任何系统相连与任何地方的任何系统相连与任何地方的任何系统相连 DB2, Informix, Netezza, ODBC, Oracle, Red Brick, SAS, Sybase, Teradata, etc WebSphere MQ, SeeBeyond, JMS, XML, EJB, Web Services, EXML, XMLS, Teradata, etc Adabas, Allbase/SQL, Datacom/DB, DB2/400, DB2/OS390, Essbase, FOCUS, IDMS/SQL, IMS, NonStopSQL, RDB, VSAM, etc EXML, XMLS, EDI, SWIFT, etc Oracle Applications, PeopleSoft, SAP R/3, SAP BW, Siebel 最佳实践最佳实践最佳实践最佳实践: : : : 利用有丰富连接的工具利用有丰富连接的工具利用有丰富连接的工具利用有丰富连接的工具 建议建议建议建议:::: 用预建的连接器用预建的连接器用预建的连接器用预建的连接器,,,, 而不是用手工而不是用手工而不是用手工而不是用手工 你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而 担忧吗担忧吗担忧吗担忧吗???? 你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而你希望总是为你的下一个应用和数据库的连接而 担忧吗担忧吗担忧吗担忧吗???? 策略策略策略策略 #5 #5 #5 #5 –––– 拒绝手工编码拒绝手工编码拒绝手工编码拒绝手工编码 这些这些这些这些 Visual BASIC, Visual BASIC, Visual BASIC, Visual BASIC, Java, C++, UNIX Java, C++, UNIX Java, C++, UNIX Java, C++, UNIX 程序的程序的程序的程序的 开发成本低而且能够保证开发成本低而且能够保证开发成本低而且能够保证开发成本低而且能够保证 功能满足功能满足功能满足功能满足 ………… … … … … 但如果有新增的需求怎么办呢但如果有新增的需求怎么办呢但如果有新增的需求怎么办呢但如果有新增的需求怎么办呢???? 还有便宜而且运行良好吗还有便宜而且运行良好吗还有便宜而且运行良好吗还有便宜而且运行良好吗???? 最佳实践最佳实践最佳实践最佳实践: : : : 图形化的开发工具图形化的开发工具图形化的开发工具图形化的开发工具 好处好处好处好处:::: 1.1.1.1. 作业易于开发作业易于开发作业易于开发作业易于开发,,,,理解理解理解理解,,,,调调调调 试以及维护试以及维护试以及维护试以及维护 2.2.2.2. 包含对数据迁移与加工的包含对数据迁移与加工的包含对数据迁移与加工的包含对数据迁移与加工的 最佳实践最佳实践最佳实践最佳实践 策略策略策略策略 #6 #6 #6 #6 –––– 高可扩展的功能高可扩展的功能高可扩展的功能高可扩展的功能 预言预言预言预言:::: 你的数据不可能你的数据不可能你的数据不可能你的数据不可能 会越来越小会越来越小会越来越小会越来越小 预言预言预言预言:::: 你的数据不可能你的数据不可能你的数据不可能你的数据不可能 会越来越小会越来越小会越来越小会越来越小 未来十年数据的增长速度未来十年数据的增长速度未来十年数据的增长速度未来十年数据的增长速度44x 2009 800,000 petabytes 2020 35 zettabytes 最佳实践最佳实践最佳实践最佳实践: : : : 并发机制并发机制并发机制并发机制 你需要的是这样的你需要的是这样的你需要的是这样的你需要的是这样的 Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared MemoryShared Memory CPUCPUCPUCPUCPUCPUCPU Shared Disk Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory CPUCPUCPUCPU 而不是这样的而不是这样的而不是这样的而不是这样的 Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared MemoryShared Memory SMP System Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Shared Memory Shared Disk Shared Memory SMP System CPUCPUCPUCPU Application Execution: Sequential or Parallel Sequential 4-Way Parallel 64-Way Parallel Source Data TRANSFORM ENRICH LOAD Data Warehouse 最佳实践最佳实践最佳实践最佳实践::::并发机制并发机制并发机制并发机制 顺序的开发 Uniprocessor SMP System MPP, GRID, and Clustered Systems 在运行时自动的并行处理 Serial Scan Join SortTime to Process Parallel Parallel • 昨天的数据已经过时昨天的数据已经过时昨天的数据已经过时昨天的数据已经过时,,,,不足不足不足不足 以满足今天的决策的需要以满足今天的决策的需要以满足今天的决策的需要以满足今天的决策的需要动态数据仓库动态数据仓库动态数据仓库动态数据仓库 & & & & 商业商业商业商业 智能智能智能智能 实时报表实时报表实时报表实时报表 策略策略策略策略 #7 #7 #7 #7 –––– 建立建立建立建立““““实时实时实时实时””””的架构的架构的架构的架构 • 我们希望从网页上看到最我们希望从网页上看到最我们希望从网页上看到最我们希望从网页上看到最 新的数据新的数据新的数据新的数据 • 我们希望前摄性的监控和我们希望前摄性的监控和我们希望前摄性的监控和我们希望前摄性的监控和 响应业务的变化响应业务的变化响应业务的变化响应业务的变化 实时事件检测实时事件检测实时事件检测实时事件检测 生产数据与电子商务生产数据与电子商务生产数据与电子商务生产数据与电子商务 数据整合数据整合数据整合数据整合 最佳实践最佳实践最佳实践最佳实践: : : : 实时机制实时机制实时机制实时机制 识别识别识别识别 响应响应响应响应业务发生业务发生业务发生业务发生 延迟延迟延迟延迟 延迟延迟延迟延迟 Latency is defined as the elapsed time between when an event occurs and when an appropriate response or action is made campaign initiated tuning customer churns win-back website click offer made fraud committed prevention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 可以接受的可以接受的可以接受的可以接受的 延迟延迟延迟延迟 业务发生业务发生业务发生业务发生业务发生业务发生业务发生业务发生 业务知晓业务知晓业务知晓业务知晓业务知晓业务知晓业务知晓业务知晓 正确响应正确响应正确响应正确响应正确响应正确响应正确响应正确响应 occurs and when an appropriate response or action is made 最佳实践最佳实践最佳实践最佳实践: : : : 实时机制实时机制实时机制实时机制 1. 提升对业务事件的识别能力 延迟延迟延迟延迟 业务识别业务识别业务识别业务识别业务发生业务发生业务发生业务发生 1. 提升对业务事件的识别能力 业务识别业务识别业务识别业务识别 正确响应正确响应正确响应正确响应延迟延迟延迟延迟 2. 提升对事件的响应能力 实时的变化数据捕获与实时的变化数据捕获与实时的变化数据捕获与实时的变化数据捕获与ETLETLETLETL工具的结合工具的结合工具的结合工具的结合 Information Server Native LogDB Retail Point Of Sale ““““CDC” Continuous IBM Information Server Staging Table Message Queue Direct Connect Flat File Data Stage Consumption ETL Load Oracle Information Server Change Data Capture IBM Information Server EDW Out of the box Out of the box DataStage DSX file format TCP via Data Stage operator Teradata, DB2, Oracle, SQL Server, Sybase… Including BalOp (ELT) 策略策略策略策略 ####8888 –––– 确保能够相互协作的整合架构确保能够相互协作的整合架构确保能够相互协作的整合架构确保能够相互协作的整合架构 目标 互通的,整合的,无缝的 现实 分散的,独立的,缺乏 沟通 Establish Platform Import & Enhance Industry Model1 Populates 3 Cognos Data Architect Deliver Reports7 Discovery Understand Data Relationships 最佳实践最佳实践最佳实践最佳实践: : : : 整合的工具套件整合的工具套件整合的工具套件整合的工具套件 28 Metadata Server Assess, Monitor, Manage Data Quality Rules Information Analyzer 2 Business Glossary Populates Links DataStage & QualityStage Generate Logic to Load Warehouse Map Sources to Target Model FastTrack 简化和包罗万象: 减少项目的周期,风险,成本! 4 6Define Business Requirement & Glossary 5 IBM 的数据集成解决方案的数据集成解决方案的数据集成解决方案的数据集成解决方案::::InfoSphere Plan, understand and optimize Information On Demand ----释放信息的业务价值释放信息的业务价值释放信息的业务价值释放信息的业务价值 争取最佳的争取最佳的争取最佳的争取最佳的 业务收益业务收益业务收益业务收益 业务分析与优化业务分析与优化业务分析与优化业务分析与优化 客户与产品的 收益率 劳动力 优化 动态 供应链 多渠道 市场 财务风险 管理 业务分析与优化业务分析与优化业务分析与优化业务分析与优化 Manage data and content over its lifetime Use data and content as part of processes business performance Establish accurate, trusted view of information, maintained over time Other Information & Application Sources 对数据与内容的整个生命周期对数据与内容的整个生命周期对数据与内容的整个生命周期对数据与内容的整个生命周期 的管理的管理的管理的管理 Flexible Platform for Optimizing and Leveraging Information Assets 提供正确的值得信赖的信息提供正确的值得信赖的信息提供正确的值得信赖的信息提供正确的值得信赖的信息 Information On Demand ----释放信息的业务价值释放信息的业务价值释放信息的业务价值释放信息的业务价值 Flexible Architecture 把信息转换成为可以信息的企业核心资产把信息转换成为可以信息的企业核心资产把信息转换成为可以信息的企业核心资产把信息转换成为可以信息的企业核心资产 在信息的全面定义和在信息的全面定义和在信息的全面定义和在信息的全面定义和 管理方面管理方面管理方面管理方面,,,,IBM 投入投入投入投入 了大量的精力了大量的精力了大量的精力了大量的精力,,,,拥有拥有拥有拥有 整体的解决方案整体的解决方案整体的解决方案整体的解决方案 • 业务术语业务术语业务术语业务术语 • 数据关系数据关系数据关系数据关系 • 数据质量的合规数据质量的合规数据质量的合规数据质量的合规 • 数据模型和映射数据模型和映射数据模型和映射数据模型和映射 • 业务规则业务规则业务规则业务规则 • 信息来源信息来源信息来源信息来源 • 发现发现发现发现 与理解异构系统中的数据与理解异构系统中的数据与理解异构系统中的数据与理解异构系统中的数据 • 设计设计设计设计 为了业务优化而需要的可信数据为了业务优化而需要的可信数据为了业务优化而需要的可信数据为了业务优化而需要的可信数据 • 管控管控管控管控 随着时间而变化的信息随着时间而变化的信息随着时间而变化的信息随着时间而变化的信息 • 信息来源信息来源信息来源信息来源 InfoSphere Information Server :为您提供可以信赖的信息为您提供可以信赖的信息为您提供可以信赖的信息为您提供可以信赖的信息 企业级的业务元数据管理 工具 Information Services Director 发布有关信息整合与访问的SOA服务 对分离的异构数据的 虚拟化访问 数据的标准化, 纠错和匹配 数据的获取,转换加工 与批量加载 Metadata Server / Metadata Workbench / FastTrack 源数据质量问题诊断 在整个信息整合的任务中管理和追踪元数据 并自动生成数据流的逻辑 对变化数据的实时 同步和复制 多文化的名称 识别与分类 您的选择您的选择您的选择您的选择………… + + + + + + 单点的产品单点的产品单点的产品单点的产品 + + + + +? ?+ Models Cleansing ETL MDM Warehouse BI Mashups 34 整合的平台整合的平台整合的平台整合的平台 + + + + + + Thank You !

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档