| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
jopen
9年前发布

搜狐新闻客户端的背后大数据技术原理——推荐系统

 搜狐移 动研发部经理刘佳为大家分享了《基于全网内容的新闻客户端推荐系统》的经验,并对针对新闻客户端遇到的内容分类质量识别图文、视频、音频、游戏、数据稀 疏、内容冷启动、用户冷启动、噪音处理:三俗内容等棘手问题的处理方式展开演讲。

要点:

搜狐移动端新闻推荐的两个特点:

  • 广告系统。广告系统,搜狐追求转化率、辅助指标ROI、用户效果。
  • 搜索系统。搜索引擎中,追求对内容理解、内容爬取、文本关键词主题提取、文本分类、主题分类、内容索引、垃圾过滤、page rank、反作弊等等。

随后,刘佳介绍新闻推荐系统中三俗内容的处理方式,他说:“推荐系统出现三俗内容,可以提高18%-20%的转化率,虽然可以暂时提高点击率,但是对用户的粘性有很大的影响。我们会通用户阅读分布、用户属性分布统计性和精细化的分类进行筛选三俗内容。整体处理后,转化率下降到15%,推荐总量提升20%,用户使用频次也有20%的提升。

搜狐新闻客户端目前内容来源:

• 自媒体约17000家 10到15万/每天
• 机构媒体+搜狐集团 10到15万/每天
• 短视频 300万
• 搜狗内容50万/每天 去重后约 7万/每天
• 搜狗微信公众号 2万/每天

新闻入库过程:

1、内容同步、抽取(每日100万资讯内容,过滤垃圾信HTML标签、广告、页
面重复内容保留)

2、基于正文内容特征生成全局ID(基于正文内容过滤重复,海明哈希。同步到各CMS生成全局ID)

3、基于标题、摘要、关键词生成cluster ID (基于标题及摘要关键词生成cluster Id;决定cluster score;根据版权、合作关系、来源质量、发布时间选择代表文章)

用户建模:

1、与内容分类对应;

2、分为长期短期两套体系;

  • 长期:用户半年阅读行为、更新周期3天
  • 短期:用户最近两天阅读行为、更新周期10秒

3、用户阅读历史

详细PPT:

搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统 搜狐新闻客户端的背后大数据技术原理——推荐系统

End.

搜狐新闻客户端的背后大数据技术原理——推荐系统

来自36大数据(36dsj.com)

 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1420511919515.html
推荐系统 推荐引擎