大数据计算平台

opentianya

贡献于2017-04-10

字数:4962 关键词: 分布式/云计算/大数据 方案 SQL

阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 阿里巴巴技术论坛 | 2016双11技术创新 双十一背后的英雄: 大数据计算平台 阿里云计算平台 林伟 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 双十一备战 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 帮助商家实现数据化运营:活 动管理、会员管理、库存管理 97%的客服电话由智 能语音机器人来接听 访客分群预测、个性 化店铺首页等 双十一的成功离不开后面大数据分析 花呗授信 额度评估 商家 精准营销 智能导购 自动选品 营销活动 反作弊 智能语音 客服 交易安全 防控 个性化推荐 物流包裹 预测 商家数据 服务 预测每家快递公司每条线路的包裹量; 6.57亿包裹,兵马未动、粮草先行 给数亿买家做消费授 信额度评估 分会场、品牌馆、特 殊专场的智能选品和 导购服务 帮助商家防止资损 在十几亿商品和数亿 消费者之间完美匹配 交易反欺诈,虚假交 易识别 双十一 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 临近双十一计算任务的变化 20160902 20160905 20160908 20160911 20160914 20160917 20160920 20160923 20160926 20160929 20161002 20161005 20161008 20161011 20161014 20161017 20161020 20161023 20161026 20161029 20161101 20161104 20161107 20161110 20161113 20161116 20161119 20161122 MaxCompute任务个数 临近双十一 任务数增加20%+ 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 为了能够支撑双十一峰值数据处理 • 持续不断提高我们运行效率,优化器优化水平,提高平均计算处理能 力 • 数据质量监控 • 健康分 – 推动数据分析质量提供 – 建立一个激励,引导我们业务方能够提高其数据和任务质量 • 数据地图 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 治理数据:事半功倍 • 飞速增长和粗放式管理带来大量存储与计算资源的浪费 – 一个新入职的小二一个上午提交了6个计算任务,运行失败,花费了18W – 某一个重要的应用,花了半天时间梳理自己的数据业务,把每天的花费 从5W降到5千 • 大量无效的计算任务,重复的存储 • 计算资源的增长落后于我们业务增长,并且我们需要降低我们成本从 而能够更加高效服务我们的业务 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 数据质量 数据加工流水线 ODL EDW ADM 源表清洗 数据质量监控 CDM 监控效果分析 1 2 在线处理监控报警 3 4 持续改进 5 源数据 线上质量监控闭环 优化 清洗规则 数据源 数据仓库 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 成本透明 利益机制评估体系 操作平台 治理体系 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 数据地图 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 双十一当天 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 3秒 1亿/秒 5X 0故障 StreamCompute : 增量计算 阿里实时数据统计和监控的利器 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 增量计算 • 业务场景 • 什么是增量计算 • 增量计算的挑战 – 正确性:exact once,failover – 规模性:状态管理, 数据倾斜处理 – 性能:恢复快,failover细粒度化,延时短 • 双十一 – 提高资源使用效率:在不扩容硬件条件下满足双十一流量峰值需求 – 零故障:全链路的保障方案 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 业务场景:双十一GMV 0 200 400 600 800 1000 1200 0:00 4:00 8:00 12:00 16:00 20:00 0:00 成交额(亿) 批处理 报表 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 增量计算与双十一 • 能够及时反馈,推动双十一购物节气氛,消费者互动感更好 • 能够使得双十一各个参与方及时的调整策略,从而达到更好促销效果 •… 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 从批处理计算到增量计算 数据累积 Map Shuffle Reduce 延时 数据累积 Map Shuffle Reduce 最终结果 中间结果 延时 最终结果 任何时间的中间结果都是100%正确的 即:如果这个时候输入数据停下来,其最后中间结果即最终结果。 低延时 平摊计算 Failover 快 连续展示 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 增量计算(统计一致性问题) 7 10 8 0-9 10-19 20-29 6 11 8 6 10 9 A同学在原来 卖5元的基础 上又卖了6元 的生意 A同学再接再 厉又卖了15 元的生意 双十一卖家总数 ≜ 成交额档次 每档卖家数目 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 A,5 0-9 20-2910-19 A …… 05 A,5 6 7 0,7A,6 11 A,11 11 10 6 1,110,6A,11 26 A,26 8 910 1,10 2,9 Stream source Stream t1 Stream t2 State(snapshot) State(snapshot)假设: 1)目前id为A的卖家 初始化0元; 2)0-9档有6个卖 家; 3)10-19档目前为10 个卖家; 4)20-29档目前有8位 卖家 增量计算 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 增量计算的挑战 • 任何时间的中间结果都是100%正确的 • Operator需要可逆性 • 分布式环境需要处理跨partition的结果调整 • 需要state来记住原来产生的中间结果,能够快速定位到需要调整的 value,进行正向和逆向操作 • 其他流计算普遍问题 – 流控 – 数据倾斜 – 容错和延时 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 SQL开发 数据调试 作业运维 • 应用领域: • 智慧城市:实时交通分析,拥塞和时间预测 • 水,电,煤,油:工业设施故障监控和预测 • 大安全(网络,金融, 公安等):预警监控,异常检测,网络攻击发 现 • 工业和商业智能:实时通话质量监测,实时交易大屏 • 云计算和服务:广告点击分析,系统运维监控 • 创新应用:客户支持、服务和维权的自动化 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 零故障 • 主备双链路容灾 – 秒级切换 • 实时全链路监控 – 数据采集,读取,处理,入库的全过程指标监控 – QPS,流量,CPU/Memory/Disk/Network资源消耗的实时分析和展示 • 完善的运维分析工具 – 发现热点机器,快速定位诊断任务异常 – 一键任务rebalance,启停等运维操作 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 双十一后海量数据分析 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 MaxCompute • MaxCompute承载了阿里巴巴集团所有的离线计算任务,是集团内 部核心大数据平台。截止到目前支撑着每日百万级规模的作业,整个 系统拥有数万台机器,单集群规模上万,存储已经到达了EB级别,每 天有数千位活跃的工程师在平台上做数据处理。 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 集群1 集群2 集群n 飞天分布式操作系统:一台大计算机 MaxCompute:统一的计算引擎 10000台 10000台 10000台 双十一创记录 处理180PB 377s 100TB数据排序 大 快 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 MaxCompute:HBO • 每天相似的查询给我们优化器带来巨大机会 • 我们会对每天提交的查询进行聚类,把以前运行数据作为Hint来帮助 未来的相似的查询上 任务运行 数据收集查询聚类 相似判断 Hint注入 基于历史 数据优化 HBO 统计数 据库 执行 新的查询 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 双十一数据规模暴增与HBO • 利用HBO能够添加数据运行Hint的能力 • 在双十一前预先对于各个数据的规模进行准确的预测 • 在数据运行Hint的指导下平稳高效的处理海量的双十一数据,合理调 用系统资源从而保障各个业务线报表的按时产出 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 Hive的一倍 Table: A ClusterA: V0 ClusterB: V0 远程读,Replicate 等多种模式 充分考虑带宽,任 务完成时效需求 全局分析 动态预先调整 Table: A ClusterA: V1 ClusterB: V0Table: A ClusterA: V1 ClusterB: V1 MaxCompute:全局调度 双十一期间充分 利用和管理跨地 域带宽,做到带 宽和延时的平衡 阿里巴巴技术论坛 | 2016双11技术创新 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 阿里巴巴集团/阿里巴巴技术发展部/阿里云云栖社区联合主办 阿里巴巴技术论坛 | 2016双11技术创新 THANKS

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档