企业级大数据分析平台架构专题

guet_lee

贡献于2017-01-15

字数:7231 关键词: 分布式/云计算/大数据 教学 方案 手册 培训

企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 企业级大数据平台实践 第2课 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 法律声明 【声明】本视频和幻灯片为炼数成金网络课程的教学资料 ,所有资料只能在课程内使用,丌得在课程以外范围散 播,违者将可能被追究法律和经济责仸。 课程详情访问炼数成金培训网站 http://edu.dataguru.cn 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 炼数成金逆向收费式网络课程  Dataguru(炼数成金)是专业数据分析网站,提供教育,媒体,内容,社区,出版,数据分析业 务等服务。我们的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式 。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的威力打破时空限制,把 天南地北志同道合的朋友组织在一起交流学习,使到原先孤立的学习个体组合成有组织的探索力 量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。我们的目标是:低 成本传播高价值知识,构架中国第一的网上知识流转阵地。  关于逆向收费式网络的详情,请看我们的培训网站 http://edu.dataguru.cn 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 课程介绍  课程内容 – 本课程从平台管理、数据访问、数据可视化、数据安全等企业级数据平台视角全面审视大数据平台 – 以商用大数据产品BigInsights为基础深入剖析商用大数据平台的企业级特性和应用实践  课程提纲 – 第1课 企业级大数据平台需求概览; BigInsights发展叱与功能介绍 – 第2课 企业级大数据分析平台架构专题:什么样的需求决定什么样的平台架构;BigInsights集群搭建 – 第3课 如何构建安全的企业级大数据平台 – 第4课 数据探索数据可视化专题:BigSheet – 第5课 成熟稳定的数据访问接口:BigSQL – 第6课 分布式机器学习算法库和运算框架:BigR – 第7课 解析自然语义的文本分析组件:Text Analytics – 第8课 企业级大数据平台数据治理专题 – 第9课 企业级大数据平台的平台管理:多租户与扩展文件系统 – 第10课 企业级大数据平台设计实例: 可解析自然语义的企业级舆情分析系统 注意事项 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 第二课 企业级大数据平台架构 提纲  企业级大数据平台架构决策要点 – 硬件的选择 – 功能组件的选择 – 其他要点  BigInsights集群安装练习 – 第二课作业说明 – BigInsights安装练习 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 大数据:企业关注的焦点和数据来源 http://public.dhe.ibm.com/common/ssi/ecm/en/gbe03519usen/GBE03519USEN.PDF 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 业务+数据 决定大数据平台架构类型  历叱数据查询 系统 – 存储海量历叱数据 (PB级) – 提供标准SQL访问接口  增强型数据仓库平台 – 海量非结构化数据的存储和处理 – 与现有数据仓库系统的融合 – 高阶数据分析服务和应用  综合大数据分析平台 – 多元数据处理平台 – 高级数据建模分析 – 精准营销推荐系统 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 企业大数据平台架构设计目标 涉及物理节点的角色划分和服务组件的分配(下页继续)  架构设计目标 – 高可用:防止单点故障的发生 – 安全性:公开节点、内部私有节点和私有网络 – 高性能:根据负载类型做最大的资源优化 开放域 管理域 计算域 区域划分:开放域/管理域/计算域 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 平台负载类型 决定硬件配置 混合负载 海量数据存储 数据中心  优先保证数据节点的存储空间 – 12 Gb/s vs. 6 Gb/s SAS盘 – JBOD& RAID – 每个数据节点84 TB(含6TB HDD) – 每个机柜(rack)高达1.6 PB的存储空间  优化CPU和内存配比 – Intel E5-2600 v3 CPU, 最高36 Core – DDR4 2133 MHz, 最高1.5 TB – 每个机柜CPU高达720核,内存30TB  高可用选项 – 热插拔硬盘及冗余供电模块 – 散热模块设计 – 硬件监控和管理 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 平台架构的组网选择  数据网络 – 集群节点乊间构成的私有网络 – 可包含边缘节点服务器  管理网络 – 所有节点的管理入口(例如:ssh, VNC,监控等) – 可直接接入外部管理网络或通过边缘节点接入 – 与外部管理平台集成  边缘节点 – 平台与外部网络连接的边缘节点 – 负责网络路由、数据交换、服务连接入口等 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 企业大数据平台构组件分布示例 管理节点的设计至关重要! 直接影响高可用、安全性和性能等。 非HA环境 HA环境 Management node 1 Ambari PostgreSQL Knox Zookeeper Hive Spark Spark History Server GPFS Master BigInsights Home BigSheets Big R Text Analytics Management node 2 Resource Manager HBase Master Zookeeper Oozie Secondary NameNode Ambari monitoring service Management node 1 Ambari PostgreSQL Spark Spark History Server GPFS Master Management node 2 Resource Manager NameNode (standby) Journal Node Zookeeper Oozie Ambari monitoring service Management node 3 Resource Manager (standby) NameNode Job history server Journal Node Zookeeper App Timeline Server Kafka Oozie (Standby) Management node 3 NameNode Job history server Zookeeper App Timeline Server Kafka Management node 4 Big SQL Headnode Big SQL Scheduler Hive Server (MySQL) MySQL metastore Hive/Oozie metastore WebHCat Server Data Server Manager GPFS Node Management node 4 Big SQL Headnode Big SQL Scheduler HBase Master (standby) Hive Server MySQL Server Hive metastore WebHCat Server Data Server Manager Management node 5 Big SQL Headnode (Standby) Big SQL Scheduler (Standby) HBase Master Hive Server (Standby) Hive Metastore (Standby) Journal Node Zookeeper Management node 6 Knox BigInsights Home BigSheets Big R Text Analytics GPFS Node 推荐的管理节点个数 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 关于模式你能想到什么? 一切皆有模式! 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 传统数据平台的架构 数据源 数据导出 缓冲区 昂贵的存储 昂贵的数据库集群 • 大数据场景下继续降低成本的解决方案 • 需支持半结构化、非结构化的数据处理 • 需要支持敏捷的分析应用 缓冲 数据表 临时表 数据仓库 ETL 分析仓库 ODS 消息分发 业务流程 昂贵的ODS系统 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 模式1:Hadoop ETL平台 数据源 导出 数据仓库 ETL 昂贵的数据库 分析仓库 Hadoop存储和运算区 数据文 件 ETL 缓存表 Load 文件 数据摄入 缓冲区 •NFS数据冗余 • Hive 分区表或 者外部表 • SQL, Pig, Java 或MR任务 • 数据ETL的难题: • 错误的数据格式 • 出错任务的重启 • 数据更新的场景 • 关键字段加入HDFS文件路径(例如: business/data/year/month/date) • 常见格式: • SequenceFile, JSON, Avro • 压缩格式 • 导出为数据库 Load数据格式 • Sqoop导入结构化 数据 • Flume导入行记录 的文件数据 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 模式2:面向分析的Hadoop架构 数据源 导出 数据仓库 ETL 昂贵的数据库 分析仓库 Hadoop存储和运算区 数据文 件 ETL 缓存表 Load 文件 数据摄入 缓冲区 数据分析 • 批量数据处理– SQL, PIG, AQL, Python, SPSS, BigSheets… • 信息抽取 • 文本分析 • 概要统计 • 汇总分析 • 数据建模 • 数据交互 – SQL, R, Python BigSheets… • 数据探索 • 可视化 • 在线数据查询(SQL) 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 模式3:Hadoop数据仓库平台 数据源 导出 数据仓库 ETL 昂贵的数据库 分析仓库 Hadoop存储和运算区 数据文 件 ETL 缓存表 Load 文件 数据摄入 缓冲区 数据分析 数据仓库 • 随需报表 • 随需查询 • 优化的数据模型设计 • 优化的存储设计 • Parquet – 高效列存储格式 • ORC – Hive14乊后引入的 支持ACID 操作的数据格式 • 优化的数据访问- BigSQL 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 模式4:Hadoop ODS平台 数据源 导出 数据仓库 ETL 昂贵的数据库 分析仓库 Hadoop存储和运算区 数据文 件 ETL 缓存表 Load 文件 数据摄入 缓冲区 数据 分析 数据仓库 • 针对终端应用的优化:高扩展特 性、key-value数据存储,适合处 理详单数据、客户数据等 •HBASE • 快速数据导入 • 快速批处理 • 极速查询 • 均衡设计 • 为终端应用保证高可靠连接 ODS 业务流程 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 企业级大数据平台示例 – IT操作风险预测系统 Log Analysis - SCALA/SCAPI Log Processing Analytic Runtime Solr Indexer HADOOP GPFS Hadoop Adaptor Analytics Tools Log Loader Index Updater BigSQL BigSheet Analytic Modules (AQL) BigSQL BigSheets Solr Search Predictive Modeling For Anomaly Detection Models and Rules Iterative Model Building Extractors Collector Staging SQOOP or FLUME HTTP Logs z/OS Syslog DB2 zOS Sub-sys logs 日志数据 Netcool Alerts 告警数据 File System Monitoring WAS logs Oracle (Alerte.log) IMS Sub-sys logs Linux Syslogs Federation Query with BigSQL (Option) Oracle 历史报表 实时结果和检索 企业级大数据平台实践 第一版 讲师 廖安舟 DATAGURU专业数据分析社区 BigInsigts集群搭建练习  第二课最低作业要求(二选一): – 下载BigInsights虚机并在自己的环境中运行 http://www-01.ibm.com/software/data/infosphere/hadoop/trials.html – 注册IBM云平台BlueMix账号,尝试上面的 BigInsights服务  (可选)根据安装指导安装BigInsights – 环境最低要求:只要1台虚拟机即可安装! • VMWARE 4 GB MEM, 50 GB空间 – 需要配置HA等高级功能的可自己准备环境,根据 安装手册一起安装 安装指导链接: http://www-01.ibm.com/support/knowledgecenter/SSPT3X_4.1.0/com.ibm.swg.im.infosphere.biginsights.install.doc/doc/inst_container.html?lang=en DATAGURU专业数据分析网站 FAQ时间 20

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档