hadoop在百度

lxz

贡献于2014-01-03

字数:0 关键词: Hadoop 分布式/云计算/大数据

Hadoop在百度Hadoop在百度 wangshouyan@baidu.com 系统部系统部 2008.11 主要内容主要内容 • 百度在hadoop上的应用 • 对hadoop进行的改进和调整对hadoop进行的改进和调整 • 目前面临的问题及未来的改进计划 • hypertable相关研究和应用 百度在hadoop上的应用百度在hadoop上的应用 • 互联网领域的平台需求 • 应用范畴应用范畴 • 应用方法 互联网领域的平台需求互联网领域的平台需求 应用范畴应用范畴 1 日志存储和统计 2 网页数据分析和挖掘2 网页数据分析和挖掘 3 商业分析 4 在线数据分析反馈 户类5 用户和网页聚类 应用方法应用方法 对hadoop进行的改进和调整对hadoop进行的改进和调整 • Map-reduce策略调整p • HDFS效率和功能改进 • 资源使用控制• 资源使用控制 map-reduce策略调整map reduce策略调整 某务1 限制某作业处于运行状态的任务数 2 调整预测执行策略,控制预测执行量。2 调整预测执行策略,控制预测执行量。 3 根据节点内存状况调度 4 平衡中间结果输出 HDFS效率和功能改进HDFS效率和功能改进 1 权限控制1 权限控制 2 分区与节点的独立性2 分区与节点的独立性 3 VFS的posix兼容性 资源使用控制资源使用控制 1 应用物理内存控制-修改linux内核,对进程独立限制 2 对计算资源分组调度 实现存储共享 计算不相干2 对计算资源分组调度,实现存储共享,计算不相干 扰。 大块文件系统3 大块文件系统 目前面临的问题及未来的改进计划目前面临的问题及未来的改进计划 效率问Map-reduce效率问题 HDFS效率和可靠性问题 资源利用效率问题 Map-reduce效率问题Map reduce效率问题 效率1 shuffle效率问题:减少IO次数,过程并行 2sort的效率和可配置性2 sort的效率和可配置性 3 streaming利用管道传输的效率问题 HDFS效率和可靠性问题HDFS效率和可靠性问题 1 随机访问效率 2 数据写入的实时性2 数据写入的实时性 资源利用效率问题资源利用效率问题 hypertable相关hypertable相关 • 应用方法 • 完善和改进完善和改进 • 与open source合作 应用方法应用方法 完善和改进完善和改进 1 recovery 2 资源使用情况 3 监控 与open source合作与open source合作 1 bug 2 patch2 patch 3 contribute Q&AQ&A

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 7 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档