网易微博推荐系统-之内容推荐

wlpwlfs

贡献于2015-10-20

字数:0 关键词:

网易微博推荐系统 —之内容推荐篇 高金楠 2013.01 目 录 contents 内容推荐 微博内容推荐工作总结 新闻推荐 1 推荐算法分类 内容推荐 常用的推荐算法:  协同过滤的推荐  基于内容的推荐 该方法是对协同过滤的延续和发展,主要借鉴了信息抽取和信 息过滤的研究成果,依据被推荐项目的内容特征来进行推荐。  基于人口统计学的推荐  混合的推荐 以上几种方法的混合。 2 内容推荐步骤 内容推荐 3 1. 内容抽取:为每个item抽取出一些“内容”(也就是item的特征) 来表示此item。 2. 兴趣学习:利用一个用户过去喜欢(及不喜欢)的item的特征数据, 来学习出此用户的喜好特征。 3. 生成推荐:比较用户的兴趣与候选item的特征,为此用户推荐一组 相关性最大的item。 内容推荐 4 优点: 1. 个性化推荐 2. 新增的item立刻被推荐 不足: 1. item内容抽取困难 2. 用户兴趣学习具有局限性 3. 不能为新用户做出推荐 微博内容推荐工作 内容推荐 发现:向用户推荐各分类下达人的优质微博。非个性化 5 微博内容推荐工作 内容推荐 榜单:热门微博推荐。 6 微博内容推荐工作 内容推荐 新闻推荐:找出新闻中涉及到的明星,将该新闻推荐给此明星的微博粉 丝。 7 新闻推荐背景 内容推荐 网易新闻的官方微博,每天会转载大量的新闻至微博系统 (5000/d)。帮助用户从大量的信息中发掘用户可能感兴趣的新闻。 8 新闻推荐系统框架 内容推荐 9 微 博 平 台 日 志 系 统 新闻推 荐系统 主题 模型 明星 特征词 微 博 平 台 外部接口 新闻数据 用户 兴趣 模型 用户 其它 信息 新闻推荐系统 内容推荐 10 新 闻 A 的粉丝 B 的粉丝 C 的粉丝 明星 A 明星 B 明星 C 新闻到明星的映射 内容推荐  主题分布的相似 前提:一个人在一段时间内涉及的主题是一定的。  特征词过滤 1. 明星的姓名 前提:在一篇新闻中,只有出现了某个人的名字,这篇新闻才可能 和这个人相关。 2. 明星的特征词 前提:对每个明星都存在一组具有识别性的特征词,当这组词中的 一个或几个与其姓名同时出现时,这篇新闻与此人相关度会比较大。 (如:{冯小刚 | 天下无贼,非诚勿扰,徐帆…} ) 11 主题模型 内容推荐 主题模型 (Topic Model) 主题模型,就是对文字中隐含主题的一种建模方法。在主题模 型中,主题变现为词汇表上词语的条件概率分布。 例如: 开出 号码 分析 推荐 上期 看好 和值 出号 走势 奖号 … 球员 拜仁 位置 球队 名单 出场 巴里 前锋 主力 中场 … 12 主题模型 内容推荐 算法选择 LDA LDA 是一种非监督机器学习技术,可以用来识别大规模文档集 或语料库中潜藏的主题信息。 13 训练集 主题 模型 文档 主题分布 LDA.Inference LDA.Estimate 指定主题数目 新闻及明星的主题分布 内容推荐 14 A频道下的大量 新闻 A频道的主 题模型 A频道下的 一篇新闻a 新闻a在频道A 下的主题分布 LDA.Inference LDA.Estimate 不同频道采用 不同的主题数目 明星在某频道下的话题分布 = ∑ 明星在该频道下新闻的话题分布 主题分布的相似性 内容推荐 由向量的夹角余弦计算新闻与明星主题分布的相似度 15 新闻/话题 T 1 T 2 … T n News 1 P11 P12 … P1n News 2 P21 P22 … P2n News 3 P31 P32 … P3n 明星/话题 T 1 T 2 … T n Star 1 P11 P12 … P1n Star 2 P21 P22 … P2n Star 3 P31 P32 … P3n 主题模型效果评测 内容推荐 精准度:返回相关文档占返回总文档的比例。 当我们不关心所有的返回结果时,通常只对排名最靠前的一部分结果, 所以有时候只考察对前n条结果的评价。 测试结果 16 P5 0.73 P10 0.75 P20 0.75 P30 0.70 特征词提取 内容推荐  作品集 在网络上抓取明星的相关作品,当做这些人的特征词。这部分 特征词与相应该明星的相关性比较高。  利用tf-idf提取特征词 针对明星的历史新闻,通过tf-idf算法提取出相关的特征词。 17 tf-idf提取特征词 内容推荐 18 在明星的历史新闻 集合上,利用tf-idf提取特征词。 方案1. 将一个频道下每个明星的所有历史新闻合并成一个大文档,在 大文档上做tf-idf,提取出每个人的特征词。 方案2. 把一个频道下所有明星的每篇新闻,看成一个文档, tf-idf提 取出每篇新闻的特征词。再将一个明星所有新闻的特征词统计词频, 求Top N。 新闻推荐系统 内容推荐 19 新 闻 A 的粉丝 B 的粉丝 C 的粉丝 明星 A 明星 B 明星 C 将新闻推荐给用户 内容推荐 为用户提供个性化的新闻推荐  用户对兴趣的选择  用户与明星的互动  用户兴趣模型 20 新闻推荐优化方向 内容推荐  算法的优化 • 分词时词性的标注 • 计算并行化 • tf-idf基于词语出现位置信息  用户行为的实时反馈  完善的推荐效果评估 21 推荐引擎 内容推荐 22 产品方 离线计算服务 Hadoop MR 实时流式计算服务 Storm 可定制 算法调 度服务 CA Server 数据仓库 Hadoop Hdfs/Hbase/Hive 推荐服务 RecSys Server 实时数据收集服务 Chukwa/Flume 日志 推荐数据集 推荐数据集 推荐结果 Q&A Thank You~~~

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享文档获得金币 ] 2 人已下载

下载文档

相关文档