大数据和Hadoop在暴风的应用

my45

贡献于2015-09-09

字数:0 关键词: Hadoop 分布式/云计算/大数据

大数据和 Hadoop 在暴 的 用风 应 暴 影音向磊风 自我介绍 向磊 暴 影音风 工作内容 hadoop 集群的搭建, 和性能 化运维 优 Map/Reduce/Hive 开发 HBase 集群维护 源自 化部署 控工具开 动 监 EasyHadoop 作者 源 放 据平台开 开 数 phpHiveAdmin 作者 大 播 究中心 究清华 学国际传 研 课题研 员 讲 师 经 历 中科普开 hadoop 深资 顾问 Easyhadoop 源社 始人开 区创 通 究院大 据联 研 数 内训讲师 惠普大 据数 研发内训讲师 暴 数据部 展 史风 门发 简 200X 2010 2012 脚本 +Mysql 代时 Hadoop 代时 Hive Mahout 代时 0.nT mnT1.nT 暴 数据平台的主要构成风 数据平台的主要构成 ComETL2 Python 脚本, MR, Mysql , Hive 相互做 ETL , 相当 于 Sqoop Hload 日志加载,分布于每个采集节点,依赖于 Hadoop client HCRShed 日志清洗,部署一点,清洗日志,过滤脏数据并加 载 IP 地域信息 HiCTbale Hive 建表,自动创建 Hive 日期表 Cronhub 分布式 Crontab ,相当于 Oozie 或 Quartz Friday/FineReport 报表生成系统 EasyHadoop 集群部署工具 phpHiveAdmin Hive 查询及管理工具 数据平台的主要构成 数据组内部监控平台 业务部门使用平台 数据可视化 使用的 Hadoop 生 圈态 ◇Hadoop 1.0.3 基础计算框架 ◇ Hive 离线数据分析 95% 任务 ◇ Pig 离线数据分析 ◇ HBase 推荐数据的存储和用户展现 ◇ Mahout 数据挖掘 Hadoop 解决的问题  移动计算而非移动数据 , 化整为零 , 分片处理;  本地化计算 , 并行 IO, 降低网络通信 Hadoop 前 代时 反馈决策周期?慢 反馈决策粒度?粗 反馈决策准确性?不准 反馈总体成本?较低 数据脚本可维护性?很差 • perl,shell,awk,python,ruby,sed. .. Hadoop 后 代时 反馈决策周期?快 反馈决策粒度?细 反馈决策准确性?准 反馈总体成本?低廉 持续扩展成本 ?低廉 数据脚本可维护性?良好 • Hql,Pig,Mapreduce, 工作流 EasyHadoop 架构 Namenode Jobtracker TasktrackerDatanode Agent Agent Agent Agent EasyHadoop Central Install Control RT-Monitor EasyHadoop 界面 phpHiveAdmin 架构 数据库管理 数据表管理 字段管理 HiveQL 查询 phpHiveAdmin Hive Hadoop Map/Reduce HDFS phpHiveAdmin 界面 解决的问题 • 一、降低部署 性, 大降低手工出 的可能性复杂 极 错 • 二、降低人力成本: 用更少的人 更多的事,投入更多 源去 注做来办 资 专 数 据 • 三、降低 成本:开发 无需做成固定 表的 ,都可以在界面里自行报 业务 查询 • 四、降低 成本时间 需要 10 分 做的事情,可以钟 3 分 完成钟 需要 50 小 的,大 需要时 概 30 分钟。 一些数据 在我写这个 PPT 的 候:时 日均任 量务 > 7000+ 未来的方向 - 数据可 化视 暴 指数风 未来的方向 - 数据挖掘 算法 王为 未来的方向 - 推荐系 与精准投放统 谢谢 !

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享文档获得金币 ] 1 人已下载

下载文档

相关文档