大数据智能应用

nmdb

贡献于2014-12-15

字数:0 关键词: 分布式/云计算/大数据

从数据到智能 ——百度BDL大数据智能分析应用实践! 沈志勇 2014.10.17! 提纲 •  大数据时代与百度大数据引擎 •  百度大数据智能分析 •  大数据智能应用案例 •  总结 大数据在百度 •  >2000PB 存储 能力 •  10-100PB/天 数据处 理量 •  千亿 ~万亿 网⻚ •  百亿 ~千亿 索引 •  十亿 ~百亿 /天 更新量 •  100TB~1PB/天 日志 百度天生是一个大数据公司! 大数据时 代 大数据行业 坐标 拥 有大数据 具备 大数据能力 BAT IBM 银 行 电 信 保险 Oracle SAP Google Amazon Splunk Salesforce 传统 企业软 件厂商 互联 网厂商 传统 企业 Princeline Qunar 跨界创 新企业 合作、渗透、创 新 创 新升级 学习 Microsoft 多 少 弱 强 (By BDG, Baidu )! 百度大数据引擎 百度大脑 •  大数据引擎:百度大数据能力 – 数据中心、数据仓库、智能分析技术…… •  大脑:百度大数据智能分析技术 – 机器学习、人工智能、数据科学(挖掘)…… ! 大数据智能分析技术 在百度 大数据智能分析:从百度到行业 •  “传统”互联网技术的输出 – 广告、推荐、NLP技术…… •  基于大数据智能分析的行业解决方案 行业数据 + 百度数据! 复杂机器学习算法! 行业价值! (可选)! 大数据智能分析应 用案例 •  旅游:百度BDG旅游预测项目 •  体育:百度BDG世界杯预测项目 •  运维与运营:智能运维调研 •  金融:基于百度数据的期指交易调研 百度旅游预测 景点拥挤 度预测 城市旅游热 度预测 旅游预测 ——人的经验 The only source of knowledge is experience. —Albert Einstein! 旅游预测 ——相关因素的“数据化” 旅游预测 ——机器学习 模型 基于大规 模机器学习 的时间 序列预测 模型 —— 状态 空间 模型(SSG) 各种因素! 旅游人数! ( ) ( )tttttt tttttt QNxAx RNxCy ,~ ,~ 0 0 1 δδ εε += += − x5! 预测! 信息收集! y5! 1 数据准备! 2 模型参数训练! 3 4 重复! 3 4 百度世界杯预测 •  单场比赛预测: –  对于每场比赛给出赛果预测 –  小组赛:胜负平的概率 –  淘汰赛:胜负的概率 •  世界杯冠军预测: –  每支队伍最终夺冠的概率 方法集 •  多源数据融合(赔率、历史战绩等): –  基于统计量 –  监督学习(supervised learning) –  群体智慧(crowd intelligence) –  专家融合(learning with experts) •  复杂模型: –  隐因子模型 –  层次贝叶斯模型 –  图上的排序模型 ? s λ! θ θ λ! s · · ·! (攻防因子模型)! 攻防因子模型:“生成”胜负 s主! s客! •  胜负状态:v = 主胜、平、客胜 对应概率:(p主, p平, p客) •  比赛得分:(s主, s客) •  假设得分满足泊松分布 s主 ~ Possion(λ主) s客 ~ Possion(λ客) •  胜负平概率: p主 = P(s主 > s客) p平 = P(s主 = s客) p客 = P(s主 < s客) v! λ主! λ客! M! 图模型表达! 攻防因子模型:“生成”攻防因子 •  λ 代表球队产生得分的攻防因子 –  球队的攻击力 — a –  球队的防守能力 — d –  比赛的bias,如主客队关系等 — b •  λ 的生成包含上述三种因素 λt,m=f (bt,m, at, dt) 令 θ 统一表示 (b,a,d) ! s主! s客! v! λ主! λ客! M! θ主! θ客! 图模型表达! 预测结 果 •  单场预测结果: –  小组赛(48场)正确率 58.3% –  淘汰赛(15场)正确率100% –  优于Google,Microsoft等的预测 •  冠军预测结果: –  NDCG@16:百度0.8854 微软0.7446 –  NDCG@8 :百度0.8863 微软0.7622 –  NDCG@4 :百度0.9048 微软0.7540 –  均高于微软结果(谷歌未预测冠军) 智能运维 /运营 监 控 Monitoring 异常检测 Anomaly detection 自动诊 断 Diagnosis 预测 Forecasting 自动调 整 Auto Tuning 技术框架! 数据! 时间序列数据 (time series data) 序贯数据 (sequential data) 异常检测 突变检测! 2 21 1 11 1 异常模式检测! 故障预测 /预 警 历 史状态 24H! 24H! 当前 时刻! 预测 区间! 预测目标:后天会不会发生某个故障?Y/N,二分类问题! 预测结 果 故障名 故障次数 AUC 1#变桨 充电 器反馈丢 失 62 0.91 液压泵 无反馈 55 0.87 变桨 安全链 38 0.84 网侧 IGBT过 流_变 流器 23 0.84 2#变桨充电器反馈丢失! 19 0.61 41子站总线故障! 16 0.54 ……! … 结 果直观 解读 time! 故 障 风 险 评 分 ! 分类阈值! 1#变桨充电器反馈丢失! 实际 故障 实际 非故障 预测 故障 16 30 预测 非故障 4 302 误报! 漏报! 智能运维 /运营 的大饼 层级 现 有领 域 监 控指标 Business operations 商务层 (管理层 ) 企业 (部門)运营 管理 Company operation and management 财务 指标 :收入等;市场 指标 : 份额 等;多产 品KPI; … 产 品层 (业务层 ) 产 品运营 Product operation 表现 指标 :PV、UV、 CTR等; 业务 指标 :收入、份额 等;… IT operations 软 件层 (系统层 ) 软 件运维 Software operation and maintenance CPU、内存占用率;吞吐率、 运 行时间 ;网⻚ 打开速度;… 硬件层 (物理层 ) 硬件运维 Hardware operation and maintenance 各类传 感器数据: 环 境、负载 ; … 金融应 用调 研 •  人脑的智能 感知 à 分析 à 决策 •  在股票投资领域中 感知市场情绪 à 分析走势 à 买卖决策 •  百度能否“感知”市场情绪? – 爬虫 :新闻、论坛…… – 搜索query:用户关注、情绪…… 百度query vs. 上证 指数 百度query vs. 个股行情 基于query数据的期指模拟 交易结 果 #1 #2 #3 2010 43% 38% 45% 2011 -3% 6% 4% 2012 49% 42% 42% 2013 33% 30% 30% 2014 10% 14% 14% 沪深300期指每年收益率 (3轮模拟交易)! (14年截止日期为10.7)! 总结 :采金子 vs. 数据科学 探矿! • 定位金子! • 确定品位! 采矿、运输! • 产出矿石! • 冶炼准备! 冶炼! • 产出金锭! • 考验工艺! 精加工! • 产出首饰! • 美化! 数据调研! • 探索性分析! • 定位信息源! • 确定价值! 数据ETL! • 数据结构化! • 数据规范化! • 建模输入! 建模! • 建模输出! • 模型参数! • 高技术含量! 后处理! • 形成产品! • 可视化! • 用户体验! 一些挑战 •  信息化 à “数据化” à智能化 – 信息化正逐步实现,数据化程度低 •  数据隐私 – 数据打通的一大阻力 •  机器学习方法的可复用性低 •  领域学习成本高

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 2 人已下载

下载文档

相关文档