腾讯游戏大数据应用

e6ef

贡献于2015-09-14

字数:0 关键词: 分布式/云计算/大数据

ArchSummit全球架构师峰会 深圳站2015 腾讯游戏大数据应用 邓大付 目录 1: 腾讯游戏数据体系 2: 腾讯游戏画像体系 3 : 道具推荐系统 4: 总结 1: 腾讯游戏数据体系 网游市场现状 • 网游市场规模首破千亿 • 整体增幅持续放缓 • 手游占比增加,超过页 游 • 如何能在逐渐饱和的市 场中稳固领先地位,深 挖用户价值? 游戏数据概况 端游 67款 … … 手游70款 页游 117款 … 60P 4000+表 4000+表 750+表 1270亿+记录 34亿+记录 1200亿+记录 每天入库近4000亿记录,共58T,库中总共60P+,占公司整体存储量26% 大数据落地应用=数据+系统+算法+应用场景 数据 存储系统 离线计 算系统 实时计 算系统 自然语言 处理算法 分类 算法 聚类 算法 序列挖 掘算法 语义模 型算法 深度学习 新进 活跃 付费 流失 图计算 腾讯游戏用户数据分层体系 支付流水 行为数据 监控数据 营销数据 原始 数据层 公司内其它产 品数据 公司外数据 数据仓库 聚合数据 (Summary) 多维数据模型 (Cube) 业务模型 (Business Model) 明细数据 (Detail data) ETL(抽取,清洗,转换,加载) 明细 数据层 画像 数据层 画像聚合处理 大盘画像数据 单游戏画像数据 经营分析报表系统 精准营销系统 画像分析系统 数据 产品层 精准推荐系统 数据建模处理 腾讯游戏数据处理系统架构 结构化Log DB结构化数据 TDBank 非结构化外部数据 HDFS Gaia HIVE MR HBase TCPlus CDB Storm Spark 分类 算法 装箱 算法 序列挖 掘算法 深度学 习算法 图计算 在线逻辑系统 离线逻辑系统 TDW 类聚 算法 数据挖掘算法概览 数据挖 掘算法 非图结构 数据挖掘算法 图结构 数据挖掘算法 频繁(序列)模式发现:Apriori, FP-Growth, GSP, PrefixSpan 分类与预测:Random Forest, GBDT, NB, LR, SVM, HMM, CF 聚类:K-Means, Spectral Clustering, DBSCAN, SVD, LDA 深度学习:Sparse Coding, DBN, CNN 顶点排序:PageRank, HITs 顶点分类:CRF, Iterative Classification Algorithm 顶点聚类:GN, CNM, Random Walks, Label Propagation Algorithm 边的预测:Common Neighbors, Katz, Low-rank Approximation 游戏运营场景中数据挖掘算法的使用 针对用户生命周期中的每个不同阶段,有针对性的进行建模,如对潜在新用户预测 其对新游戏的兴趣高低,对活跃未付费用户预测其付费可能性等 结合用户生命周期模型对用户行为进行建模及预测 新增用 户 活跃阶 段 活跃下 降 流失阶 段 精准 拉新 付费 优化 流失 预警 流失 挽回 用户画像分析 2: 腾讯游戏画像体系 用户画像处理的问题 • 基础数据层 1. 整理数据标签,防止重复性工作。 2. 标签数据直接用于各种营销场景。 • 聚类分析层 1. 2. 如何描绘一个人? 兴趣 自然人 游戏特性 SNS 渠道 财富 画像建设的系统架构 最终的用户画像标签数据 用 户 标签 数据源 11.7亿 6.23W维 自然人盘子 手游盘子 端游盘子 自 然 人 属 性 财 富 属 性 游 戏 行 为 属 性 社 交 网 络 属 性 兴 趣 属 性 渠 道 属 性 用户分群-Kmeans的使用 小白用户 注册不久,游戏小白 进阶小白 对游戏有了一定了解,开始接触其它模式 个性型 孤胆英雄-A模式 社交型 独乐乐不如众乐乐-A模式 热情型 表现在游戏中投入度最高,水平也高,对游 戏各模式都感兴趣,也爱组队 追求技术型 追求技术,追求名次 休闲老用户 注册时间最早的老用户,喜爱休闲玩法 It is not easy 选择了不同的簇的数目,不同的数据预处理方法,不同的玩家特征得到较为理想的结果 Not Too Easy. 基于用户分群的状态变化分析 3: 道具推荐系统 解决的问题 如何做?

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档