云+时代大数据平台应用方案

WindStand

贡献于2018-01-08

字数:0 关键词: 分布式/云计算/大数据 方案

云+时代大数据平台应用方案 腾讯-陈龙 SACC2017 大数据特征 数据规模大 企业数据数据规模大部在 TB级别以上,像银行电信 等行业数据量都在PB以上, 而且每年都是以40%以上 的速度增长 数据类型多 除了以文本为主的结构化数 据、以网页数据为代表的半 结构数据,也存在大量网络 日志、音频、视频、图片、 地理位置信息等非结构化数 据 数据流转快 要在秒级时间范围内给出 分析结果,超出这个时间, 数据就失去价值了 价值密度低 海量数据中,如何通过 强大的机器算法,更迅 速有效地完成数据的价 值“提纯” 4V 效率 成本 价值 SACC2017 企业大数据应用现状 数据 ETL 数据仓库 数据分析 数据挖掘 物联设备 应用系统 外部数据 数据面板 存储管理 计算处理 分析技术 运维成本 资源成本 技术成本 核心技术 决策者 存储 计算 网络 应用系统或者 物联设备以及 第三产生大量 的数据 通过ETL把各种 类型的数据处 理成高密度有 价值的数据 转换完成的数 据进入数据仓 库为下一步挖 掘做准备 数据分析任务 可以在数据仓 库中提取想要 的数据 深度挖掘通过 机器学习和AI 深度挖掘数据 价值 根据数据分析 结果和挖掘结 果决策者做出 决策 个角色通过数 据面板获取想 要的数据 成本 技术 成本 硬件 成本 运维 成本 效率 SACC2017 大数据解决方案现状 HDFS YARN MESOS MapReduce Spark Storm Flink Flink Hbase hive kylin Zeppelin presto azkaban oozie airflow phoenix superset 机器学习数据挖掘 机器学习数据挖掘 kafka ES 存 储 资源 分配 计算 框架 接入 交互 ETL 调度 数据 应用 选型是否合理 组件整合 服务管理 交付效率 运维能力 服务 考验 成本 考验 存储成本 计算成本 网络成本 数据安全成本 系统安全成本 SACC2017 大数据解决方案现状 服务选型 组件整合 服务管理 交付效率 运维能力 计算成本 存储成本 网络成本 社区自建 数据安全 技术支持 服务整合 部分 部分 部分 部分 中 中 低 中 中 差 高 高 高 高 高 高 高 高 高 需要什么样的平台 价值最大化、聚焦业务 成本最小化 大数据平台 服务 能力 数据 安全 组件 整合 运维 能力 交付 效率 资源 弹性 存储 成本 计算 成本 技术 成本 服务 整合 SACC2017 云环境下的大数据基础平台 云存储 云数据库 对象存储 KV存储 文档数据库 托管Hadoop计算服务 离线处理 流式计算 实时数据库 ETL 企业应用服务 企业服务 云消息服务 ckafka 人工智能深度应用 机器学习 数据可视化 智能BI 可视交互 平台服务化 计算存储分离 服务深度整合 快速交付 资源弹性 海量计算资源保证 专业技术支持 低运维和开发成本 云服务 虚拟网络 弹性 效率 海量 安全 高效 …. 云服务 SACC2017 腾讯云公有云大数据平台实践(EMR) 云服务器 emr镜像 emragent 云专有服务器 emr镜像 emragent 黑石物理服务器 emr镜像 emragent 基础设施层 EMR公有服务层 EMR服务控制面板 EMR服务API接入层 安全代理层 流程驱动中心 监控中心 扩缩容 弹性规则 集群管理 配置管理 服务管理 查看监控 集群创建 集群管理 扩缩容 配置管理 监控汇总 监控分析 任务调度 流程管理 模型解析 业务驱动 集群创建 集群扩容 集群缩容 配置生成 配置下发 拓扑管理 集群监控 集群销毁 资源管理 api接入层 组件管理 安全策略 HDFS hive yarn spark hue … 安全校验 组件webui 服务状态上报 节点状态上报 运维指令 业务指令 业务调用 业务调用 api调用 api调用 启动流程 流程回调 监控数据 弹性分析 使用 SACC2017 服务流程化 定义业务流程 集群创建 集群扩容 集群缩容 配置生成 配置下发 业务流程… Activity流程引擎 任务调度 流程引擎 Job管理 业务回调 资源管理 配置管理 业务模块 组件管理 业务… 部署流程 回调业务 业务发起流程 • 流程设计器设计业务流程 • 流程管理系统管理流程 • 流程监控 • 流程告警 • 流程mock • 通过流程重用业务功能  流程热加载  自动重试  步骤跳过  自定义配置  简化业务开发  业务过程可视  业务实现原子功能  代码高度解耦  代码高度复用  代码维护简单  代码结构高度可扩展  控制逻辑和业务分离 SACC2017 服务模型 套件集合 服务A 服务B 服务C 组件集合 hadoop hive hbase 服务… …. 服务组 hdfs yarn spark …. 服务节点 datanode rm nm …. 套件集合 套件是软件配置的集合,套件内的软件之间的版本兼容 性在集成前都做过处理 组件集合 组件集合里是一个一个的单个软件,由软件和软件版本 组成,比如hadoop-2.7.3 服务组 服务组是一个软件提供的功能集合,比如hadoop提供了 HDFS,YARN,那么HDFS是一个服务组 服务节点 一个服务组要想提供服务,必须由多种进程提供服务, 服务节点可以理解为一种进程 SACC2017 服务模型 服务拓扑定义 服务进程元数据 主节点 core节点 协作节点 计算节点 namenode datanode hamster 进程n 服务进程 进程1 进程2 进程n 服务元数据生 成 配置生成 资源分配 服务安装 配置下发 服务启动 监控启动 服务生命周期 进程节点n datanode namenode 进程节点n rm hmaster 进程节点n rs hivemeta 进程节点n datanode nodemanager … … … Hadoop hive hbase zookeeper flink spark SACC2017 服务管理 服务节点 namenode resourcemanager hmaster hiveserver2 hivemetastore 监控 监控 监控 监控 监控 HDFS日志处理 YARN日志处理 hive日志处理 EMR公有服务层 监控元数据 日志元数据 监控数据 监控告警 EMR监控处理 云监控 EMR服务控制面板 订阅告警 监控查看 设置告警规则 查看服务状态 SACC2017 服务弹性 Yarn资源阻塞 节点CPU负载 节点内存负载 弹性分析 弹性规则设置 扩容节点 缩容节点 资源阻塞情况 每个节点内存负载 每个节点CPU负载 弹性规则设置 根据规则缩容 根据规则扩容 参数1:任务阻塞因子 a=푑푦 푑푡 푦为阻塞任务的变化曲线,푎为任务阻塞变化率 参数2:集群总体CPU负载 b= (푙표푎푑1+푙표푎푑2+⋯+푙표푎푑푘 푘 )푚 푛=1 loadn为过去一段时间点某个时间点某个节点的 负载 参数3:集群总体内存使用率 c= (푢푠푎푔푒1+푢푠푎푔푒2+⋯+푢푠푎푔푒푘 푘 )푚 푛=1 usagen为过去一段时间某个时间点的某个 节点的内存使用率 参数a,b ,c 共同决定集群是需要扩容还是需要缩容 SACC2017 计算存储分离 FileSystem LocalFileSystem DistributedFileSystem OtherFileSystem CloudStoreFileSystem HDFS namenode datanode1 datanode2 datanode3 云存储 云存储API 对象存储 归档存储 文件存储 本地文件系统 ext3 ext4 fat32 ntfs 其他文件系统 ftp 内存文件系统 … SACC2017 组件深度优化整合 参数优化 HDFS参数优化 YARN参数优化 HIVE参数优化 Hbase参数优化 ……. 环境整合 社区patch Lzo,sanppy等压缩支持 版本兼容性处理 多版本python支持 Spark集群学习库支持 …… Hive-14029 Hive-15355 Hive支持中文注释 Hbase-16993 …… SACC2017 基于云的计算存储分离应用模式 云存储COS bucket1 bucket2 bucketn 企业应用服务 企业服务 离线分析集群 数据应用集群 master common core task master common core task 弹性节点 弹性节点 人工智能深度应用 机器学习 数据可视化 智能BI 可视交互 机器学习 应用系统产生数据 离线分析集群清洗数据 数据应用集群进一步挖掘数据的价值 发现数据之间的关系 自助BI数据可视化 SACC2017 基于云虚拟子网的海量数据高可靠应用 北京Hbase集群 广州Hbase集群 上海Hbase集群 VPC网络 VPC网络 VPC网络 对等网络 对等网络 同步监控 同步监控 延时告警 延时告警 主写入端 SACC2017 腾讯云EMR服务 EMR 服务化 计算存储分离 免运维 弹性 安全加固 自服务 专业技术支持 分钟级交付 海量资源保证 组件优化整合 SACC2017 腾讯云EMR服务 HDFS YARN MESOS MapReduce Spark Storm Flink Flink Hbase hive kylin Zeppelin presto azkaban oozie airflow phoenix superset 机器学习数据挖掘 机器学习数据挖掘 存 储 资源 分配 计算 框架 接入 交互 ETL 调度 数据 应用 EMR服务控制面板 EMR服务API接入层 COS 云服务器 黑石物理服务器 基础 设施 弹性 安全加固 SACC2017 SACC2017

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档