大数据和深度学习介绍

bgn4

贡献于2015-05-11

字数:0 关键词: 机器学习

⼤数据和 深度学习 介绍 张潼 2013年 11月 3⽇ ⼤数据在互联⺴ 数据是互联⺴公司的最⼤战略资源 创造⽤户体验 创造商业价值 核⼼技术 ⼤数据管理 : infrastructure ⼤数据分析 : machine learning 应⽤ : system integration 机器学习 •  ⺫标 : 让计算机系统更智能 •  ⽅法 : ⼤数据 +计算能⼒ +复杂模型 +⾼效算法 è智能 常⽤机器学习模型 观察量 è 决策的数学模型 主要讨论监督模型 搜索⼲告 机器学习问题 •  点击率( CTR) 预估 •  问题规模 : 数据存储和管理 : 上万台机器 数据量 : 百亿到千亿 级 特征数 : 百亿到千亿 级 (稀疏离散值特征 ) •  ⼤型线性 Logistic Regression模型 •  计算技术 : 分布式同步 CPU并⾏计算 语⾳识别 è è è 你好 机器学习问题 •  把声学信号变成⽂字 : 多分类问题 •  问题规模 万⼩时 级语料 百亿级 训练数据 上万类别 ; ⼏百维特征 ( 稠密 连续值特征 ) •  深度神经⺴络模型 •  计算技术 : 分布式异步 GPU计算 机器学习流程 Machine Learning Pipeline learning algorithm processing datainput data training trained model information decision T. Zhang (Baidu) Big Data 6 / 22 ⼤规模机器学习 •  基础架构 分布式数据存储,管理,和 分析 分布式 CPU/GPU计算平台 •  算法 模型和特征提取 数据抽样 ⼤型机器学习模型优化 数据管理 •  Hadoop: ⼤数据存储 de facto standard 分布式⽂件系统( HDFS) Map-Reduce 可⽤于机器学习特征提取 计算性能 CPU: complex tasks Large memory (128G) Few cores (8) Peak 100+Gflops 适合 : 稀疏离散特征 树模型 GPU: simple tasks extreme parallel Small memory (5G) Many cores (2K cores) Peak 3Tflops 适合 : 稠密连续值 深层神经⺴络计算 数学问题 •  ⼤型机器学习训练优化问题 : •  分布式多机并⾏训练 minw 1 n n Xi=1 fi(w) 问题的分配⽅式 分配数据到多机 •  每个机器有所有模型参数 •  每个机器也不同数据 分配数据和特征到多机 •  每个机器有⼀些特征和⼀些参数 分配特征到多机 •  每个机器有所有数据的⼀些特征 •  每个机器有不同参数 ⼤型线性模型 minw 1 n n Xi=1 fi(w) fi(w)=ln(1+ew>xiyi ) 多机 CPU分布式计算 树模型 可⽤ CPU分布式计算 把特征发到不同机器 深度神经⺴络 minw 1 n n Xi=1 fi(w) 多机 GPU/CPU分布式计算 ⼤数据算法研究 问题 ⽤什么数据解决什么问题 数据 数据融合 , 结构 ; 噪声过滤和纠偏 ; 数据抽样⽅法 ; 数据降维 模型 图模型 , 树模型 , 深度神经⺴络 分布式计算 同步和异步 ; 鲁棒性 ; ⼤模型 ; 理论分析 从浅层到深度学习 浅层⺴络 : ⼈⼯特征抽取 学习线性组合 深层⺴络 : 从原始特征出发 ⾃动学习⾼级特征组合 ⾼级特征 2 0 Image Speech 神经⺴络的发展 •  Perceptron (1958-1969) •  Neural Networks (mid 1980 – early 1990) •  Deep Learning (2006 – now) •  1995—2006 •  SVM, Kernel Machines •  Convex; Linear •  好的理论分析 •  容易调参 深度学习成功条件 •  2010-今 : 在⼯业界取得巨⼤成功 •  复杂模型 •  ⼤数据 : 100x •  ⼤规模计算能⼒ : 1000x •  ⼤数据 +计算能⼒ +复杂模型 +⾼效算法 è智能 深度学习在百度 •  2012年夏天投⼊研发 •  ⽤ GPU提升计算效率 , 处理海量训练数据 •  语⾳识别 , OCR识别 , ⼈脸识别 , 图像搜索等巨⼤提 升 •  到⺫前 , 超过 8项技术在产品上线 百度深度学习成果 •  语音:错误率相对降低20-30% •  OCR:错误率相对降低30% •  人脸识别:世界最好结果 •  全网相似图像搜索:效果显著超谷歌同类产品 •  全流量上线广告CTR预估,显著提升广告点击率 语⾳产品 语⾳ 搜索 输⼊ 法 地图 搜索 语⾳ 助⼿ 百度魔图 单 日最高上载 9000张图 片, 在IOS APP排行榜总 榜排名第一达3周之久 百度技术 Google搜索结果 检索图片 图片搜索 数据规模 •  图像识别: 数千万训练样本 •  OCR: 数千万训练样本 •  语音识别: 数百亿训练样本 •  广告: 千亿训练样本 •  … 11/4/13 28 训练数据每年成倍增长 … 深度学习模型 : 图像 计算能⼒和算法 •  ⼏⼗台 GPU并⾏计算 •  并⾏算法 深度学习研究 •  ⼤数据的问题 •  基于问题的模型结构 •  Nonlinear feature discovery •  Knowledge representation •  Forming high level semantics •  ⼤规模分布式算法 •  Platform + engineering + algorithm ⼤数据和深度学习的意义 •  ⺫标 : 计算机智能和⼈⼯智能 •  ⼿段 : •  ⼤数据 •  复杂模型 •  计算能⼒和算法 •  系统合成 •  深度学习 : 最接近⼈脑的复杂模型 •  ⺫前向⼈⼯智能⾛得最近的⽅法

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 2 人已下载

下载文档

相关文档