淘宝数据仓库架构实践

e246

贡献于2014-01-12

字数:0 关键词: 软件架构

薛奎 2012-04-05 淘宝数据仓库架构实践 主题 概述 元数据平台架构 开发管理平台架构 应用开放平台架构 展望 存储计算架构 概述 阿里集团未来更像一家数据公司而不是一家电商公司 淘宝数据仓库架构 元数据  概述  元数据平台架构  元数据在淘宝中的应用 子主题 元数据架构 元数据 系统元数据 数据库表元数据 数据表描述 数据字段描述 ETL代码元数据 对数据表,字段引用关 系 代码元素元数据 ETL仸务运行过程元数据 map数,reduce数 运行起至时间 数据容量元数据 记录数 占用空间大小 ETL仸务调度元数据 依赖关系 调度周期 优先级 …… 业务元数据 业务逻辑单元元数据 业务主题元数据 语义元数据 系统元数据与业务元数 据关系元数据 元数据在淘宝中的应用 元数据 血缘分析 系统 Reduce自 适应系统 数据波动 监控系统 告警系统 ETL代码 优化系统 自动化建 模系统 自助分析 提数系统 调度系统 ……  存储计算平台选型  传统存储计算平台架构  分布式平台设计理念  淘宝存储计算平台发展 子主题 存储计算架构 存储计算平台选型 规模评估 01 容量评估 02 需求评估 02 使用人数、数据量、数据保存周 期、数据需求量 计算(CPU/内存),存储(磁盘), 网络(网卡,路由器). 线性扩展、成本、稳定性、性能 、运维…… 传统数据仓库平台架构 根据对节点(CPU/内存),磁盘,网络的共享分为 完全共享、部分共享与完全不共享几种类型. .对称多处理SMP 共享磁盘 完全不共享 DB 磁盘 Client Client DB SAN/共享磁盘 DB DB DB Client DB 磁盘 DB 磁盘 DB 磁盘 DB 磁盘 分布式平台设计理念 移动计算比移动数据更划算 异构软硬件平台间的可移植性 简单的一致性模型 (写一次,不限读次数) 流式数据访问 硬件错误是常态而不是异常 大规模数据集 淘宝计算存储平台发展 hadoop集群(2000节点) Greenplum分布式数据库 Oracle RAC多节点(20) Oracle单节点 特点:可线性扩展;多副本机制 保证系统7*24小时不间断提供服 务。开源系统与低廉设备 特点:可线性扩展,但当集群到 达一定规模时,数据仓库的不可 写时间会越来越长。低廉的设备 与收费软件 特点:有一定的扩展能 力,但不是线性扩展。 高端存储与商业软件成 本高昂 特点:无扩 展能力,计 算存储能力 有限  总体规划  云分析  ETL 任务调度 子主题 开发管理平台架构 总体规划 ..... ..... ..... ..... 开发 测试 布署上预发 预发 布署上生产 ..... 冒烟 云分析 问答 知识中心 天网 天网 版本/发布功能(开发中) 版本/发布功能(开发中) 自动化测试平台(开发中) 云分析 AD-HOC 开发平台 社区、知识库、帮助中心 HIVE Shell Python PIG MR Mahout R 已支持 计划支持 Crontab调度 RAC天网调度 分布式天网调度  完全为了解决定时 启动的问题  无法解决时序前后 置依赖问题  元法解决均衡负载 问题  无法解决优先级问 题  运维的灾难  根节点定时启动  任务之间完全基于 触发启动  能很好解决均衡负 载的问题  能很好的解决优先 级问题  一键式运维,轻松 快捷  不能解决rac单节 点失效的问题。  根节点启动  仸务之间基于触发 启动  能很好解决均衡负 载  ETL仸务的优先级 能传递到云梯的资 源分配调度  很好解决gateway 失效的问题  一键式运维,轻松 快捷 调度系统之于数据仓库有如大脑于人体一样重要,他是数据仓库所有任 务高度协同有序运转的指挥中心. ETL任务调度平台 早期天网原型  总体规划  数据采集  统一淘宝数据体系  统一指标库、CUBE群、TOP结果集  数据应用商店DAS(Data APP Store)  官方数据应用:DSM、ADM 子主题 应用开放平台架构 总体规划 事实层 主题层 ODS TT datax dbsync 统一指标库 CUBE TOPX …… Data APP Store(DAS) DSM ADM 淘数据 商城数据 portal 你的数据 应用产品 数据采 集 DW(云梯) 结果集 (OB集 群) 数据应 用产品 数据应 用商店 (接口) 云分析 数据采集 采集 TT:浏览日志数据同步, 基本上实时同步 Dbsync:DB log解析, 准实时同步 Datax:全量同步, 基本上延迟一天 DATA 统一淘宝数据体系 基于ODS、主题与实事三层标准 核心业务数据驱动+其它业务应用驱动 初期人工为主,后期自动化建模为主 基于云存储计算环境 打造电子商务行业数据模型标准 统一淘宝 数据体系 淘宝业务模型 发布 销售 收款 分销 营销 物流 浏览 购买 支付 收藏 物流 评价 旺 旺 评 价 投 诉 处 罚 退 款 P4P 卖 家 工 具 聚 划 算 统一指标库—生成过程 维度 W1 W2 W3 W4 W5 W6 W7 W8 周期 一级 类目 地域 卖家 性别 年龄 段 卖家 星级 指标 I1 I2 I3 GMV 支付宝 成交 PV 指标库 唯一标识 指标名称 度量代码 度量值(元) 标签 20120401001 周期=日|一级类目 =男装|地域=上 海|日交易大于等于 1W的店铺 Sum(GMV) 300000000 GVM|男装|上海 |网站运营部|男 装运营 统一指标库—目前指标来源 10% 5% 60% 25% 淘数据接入 ETL开发 第三方系统接入 建模+应用驱动 统一指标库: 逐步切换为统一建模+应用驱动的来源,目前 绝大多数指标库来源为淘数据指标 Data App Store(DAS) Jsion XML http API …… 指标库 CUBE群 …… DSM DSM系统 Data Super Market:简称DSM,就像在超市购 物一样获取你想要的数据,从此您只需要看一张 报表,100%DIY By Yourself. 搜索的方法查找数据 通过业务元数据定位数据 支持定期邮件发送功能 格式一次定义,永久生成 数据一次定义,定期自动产生 取你所想,用你所用 支持EXCEL的所有编辑功能 支持excel导出 展望 联系我们 • 数据平台与产品  Blog: http://www.tbdata.org/  百科:  邮件列表:taobao-dw@list.alibaba-inc.com • 薛奎 微博:淘薛奎 mail:xuekui@taobao.com 旺旺:薛奎

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档