大数据的系统架构支持

672381992

贡献于2014-08-30

字数:0 关键词:

大数据的系统架构支持 @林仕鼎 2013/6/6 互联网服务的典型技术特点 超大规模 快速迭代 大数据规模 • 100~1000PB数据总量 • 10~100PB/天数据处理量 • 千亿~万亿网页 • 百亿~千亿索引 • 十亿~百亿/天更新量 • 十亿~百亿/天请求 • 100TB~1PB/天日志 百度的数据规模 离线 在线 离线分析与在线实验相结合 通过反馈来验证算法优劣 算法A 算法B 算法B 快速迭代是互联网产品的 主要创新手段 搜索引擎的迭代 网页库 倒排表 网页 5% 5% 策略 数据 机器学习 平台 Online Learning A/B test Feature Training Data Mining 互联网产品的迭代 应用引擎 想法 原型 系统 快速开发 测试 产品 部署运维 A/B测试,持续优化 开发框架 数据智能 验证 数据分析 应用引擎 云测试 数据 架构 技术 数据智能 enable 互联网服务 IT产业生产力的变化 ’60 ’70 ’80 ’90 ’00 ’10 硬件 软件 软件 +人 Inf +人 +数据 Mainframe PC Internet Cloud 迭代的本质是让人参与系统进化, 而Big Data为迭代指导方向, Infrastructure则加速迭代。 云计算技术体系 数据智能 软件基础架构 大数据 数据中心、网络、服务器 数据中心计算 主要技术领域 超大规模系统 存储 计算 实 时 结构 访问模式 数据密集型 计算密集型 通讯密集型 数据中心 服务器、网络 设计、开发 运维 统一存储体系 • 平衡大容量、高并发、低延迟 • 不同访问模式通过组合满足 统一访问与传输 分布式存储 块存储 分布式 数据结构 ObjectFileTable 数据访问层 内存、Flash、硬盘 分布式计算 描述能力 数据流优化 控制流管理 资源分配 优先级、并发控制 隔离、安全 执行层 模型层 Map Reduce 表示层 SQL-like 翻译 Join Select Top B C DA 实时存储与计算 分布式数据结构 kNN查询 平台 向量计算引擎 流式数据处理引擎复杂事件处理引擎 PubSub 引擎 机器学习 算法平台 OLAP 引擎 超大规模数据仓库 图查询 平台 实时检索 平台 向量计算引擎 Vector Layout Map- Shuffle Operators / Checkpoint SIMD Program 复杂事件处理 average(price) trigger(?,b,c) filter(b) pattern(a->b->c) condition(func(a,b,c)) 流式计算模型 window step bound time M=Stream 目标 • 1000PB海量 • 10亿维特征训练 • 100维条件查询高维、多维 • 流式 • 触发式实时 更大、更复杂、更快! 大数据系统 分布式 存储与计算 大规模人工 辅助处理系统 人计算 向量引擎 Machine Learning 算法 Web Contents 流式处理 Logs & DGC PubSub 推荐系统 智能交通 决策辅助 Apps 商业智能 风险预警

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 1 人已下载

下载文档

相关文档