推荐系统

cwdk

贡献于2016-02-19

字数:0 关键词: 机器学习

主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 2 Recommender System 引言 • 推荐系统的主要任务 – 帮助用户发现他们可能感兴趣的内容(个性化 推荐系统) – 将内容投放给可能会对它们感兴趣的用户(个 性化广告) • 推荐系统无论在工业界还是学术界都是一 个重要的研究热点。 3 引言 • 著名商业推荐系统 4 引言 • 推荐系统的主要算法 – 按照使用数据分: • 协同过滤 :用户行为数据 • 内容过滤 : 用户内容属性和物品内容属性 • 社会化过滤:用户之间的社会网络关系 – 按照模型分: • 最近邻模型:基于用户/物品的协同过滤算法 • Latent Factor Model:基于矩阵分解的模型 • 图模型:二分图模型,社会网络图模型 5 引言 • 推荐系统中常见的时间效应 – 用户兴趣的变化 – 物品流行度的变化 – 季节效应 6 引言 • 协同过滤数据集: – {(用户,物品,行为,时间)} • 问题: – 通过研究用户的历史行为和兴趣爱好,预测用 户将来的行为和喜好。 是用户集合, 是物品集合, 是时间集合 7 主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 8 问题简述 • 数据集:显性反馈数据集 – {(用户,物品,评分,时间)} • 问题定义 – 给定用户u,物品i,时间t,预测用户u在时间t 对物品i的评分 uitr 9 相关研究 • 时间无关的评分预测问题算法 – 基于用户/物品的协同过滤算法 – 基于矩阵分解的模型 Latent Factor Model – 受限波尔兹曼机 RBM • 时间相关的评分预测问题算法 – 用户会喜欢和他们最近喜欢的物品相似的物品 – 用户会喜欢和他们兴趣相似的用户最近喜欢的 物品 10 时间效应 • 时间效应一:全局平均分的变化 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 1999/8/28 2001/1/9 2002/5/24 2003/10/6 2005/2/17 平均 分 日期 Netflix数据集中用户评分平均分随时间的变化曲线 11 时间效应 • 时间效应二:物品平均分的变化 Netflix数据集中物品平均分随物品在线时间的变化曲线 2.7 2.9 3.1 3.3 3.5 3.7 3.9 0 500 1000 1500 2000 平均分 时间(天) 12 时间效应 • 时间效应三:用户偏好的变化 13 时间效应 • 时间效应四:用户兴趣的变化 – 用户对物品的兴趣会随时间发生改变。 • 年龄增长:青年->中年 • 生活状态变化:学生->工作 • 社会热点影响:北京奥运会 14 时间效应 • 时间效应五:季节效应 15 模型和算法 • 用户兴趣模型 – 时间无关的Latent Factor Model (RSVD) – 时间相关的Latent Factor Model (TRSVD) T ui u i u ir b b pqµ=+ ++ 3 5 1 5 3 2 2 4 4 2 3 4 5 1 2 T TT uit u i t ut ui it ukiktk k r b b b xy pq sz f ghµ=+ +++ + + +∑ 16 模型和算法 • Tensor分解 17 用 户 物品 T TT uit u i t ut ui it ukiktk k r b b b xy pq sz f ghµ=+ +++ + + +∑ 模型和算法 • 模型优化 2 ( ,,) 2 2 2 222 2 22222 () () T TT uit u i t ut ui it ukiktk uit k ui t u t u i i t u i t C r b b b xy pq sz f gh bbbx y pqsz f gh µ λ = −− −−− − − − ++++++ ++++ ++ ∑∑ 22ui u u C ebb λ∂ =−+∂ 22ui ik uk uk C eq pp λ∂ =−+∂ 22ui ik tk uk uk C egh ff λ∂ =−+∂ ()u u ui ubb e bαλ←+ − ()uk uk ui ik ukp p eq pαλ←+ − ()uk uk ui ik tk ukf f egh fαλ←+ − uie 18 模型和算法 • 季节效应 19 实验分析 • 数据集(Netflix数据集) • 评测指标 用户数 480,189 电影数 17,770 评分数 100,480,507 时间跨度 1999年11月-2005年12月 平均分 3.6 20 实验分析 • 实验结果 TRSVD和RSVD模型在Probe测试集上的RMSE比较 21 实验分析 • 实验结果 季节效应的影响 22 主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 23 问题简述 • 数据集:隐性反馈数据集 – {(用户,物品,时间)} • 问题定义 – 给定用户u,时间t,预测用户u在时间t可能会 喜欢的物品列表R(u) 24 相关研究 • 基于邻域的协同过滤算法 – ItemCF:推荐给用户那些和他们之前喜欢的物 品类似的物品 – UserCF:推荐给用户那些和他们兴趣相似的用 户喜欢的物品 • 基于评分数据的Top-N推荐算法 – 推荐给用户那些他们可能评分最高的物品 25 时间效应 • 用户兴趣分为短期兴趣和长期兴趣 – 短期兴趣:临时,易变 – 长期兴趣:长久,稳定 – 短期兴趣可能会转化为长期兴趣 26 因此,需要在推荐系统中综合考虑用户的长期兴趣和短期兴趣。 模型和算法 • 用户物品二分图模型 A B C a b c dD 27 图中节点具有高相关的三个条件: • 两个顶点之间有很多边相连; • 两个顶点之间的路径比较短; • 两个顶点之间的路径不经过有很大 出度的顶点。 个性化推荐问题可以转变为计算用户 节点和物品节点的相关性的问题。 模型和算法 • 路径融合算法 – 找出用户顶点和物品顶点之间的最短路径; – 计算每条最短路径的权重; – 将所有最短路径的权重线性叠加作为最终用户对物品 喜好程度的度量。 28 模型和算法 • 用户时间段图模型 A A:1 A:2 B B:1 B:2 a b c 29 顶点权重定义 用户u对物品i的兴趣函数: 模型和算法 • 基于图的个性化推荐算法 30 A A:1 B B:1 B:2 a b c A:2 A A:1 B B:1 B:2 a b c A:2 A A:1 B B:1 B:2 a b c A:2 A A:1 B B:1 B:2 a b c A:2 A A:1 B B:1 B:2 a b c A:2 A A:1 B B:1 B:2 a b c A:2 P(A,c,2) 实验分析 • 数据集 – CiteULike : 4607个用户,16,054篇论文和 109,364条用户和论文之间的关系记录 – Delicious : 8,861个用户,3,257篇网页和59,694 条用户和网页之间的收藏关系记录 • 评测指标 31 实验分析 • 实验结果 CiteULike Delicious 32 实验分析 • 实验结果 CiteULike Delicious 33 主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 34 问题简述 • 每个在线系统都是一个动态系统,但它们有不同 的演化速率。 – 新闻,博客演化的很快,但音乐,电影的系统演化的 却比较慢。 – 不同演化速率的系统需要不同类型的推荐算法。 Fast Slow 35 在线系统的变化速率 0 20 40 60 80 100 120 140 160 180 0 50 100 150 200 250 Average Life Span Average Popularity youtube nytimes blogspot wikipedia sourceforge 这幅图显示了不同系统,相 似热门度的物品的平均生存 周期。 一个物品的生存周期定义为 该物品被至少一个用户关注 过的天数。 36 在线系统的变化速率 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 10 20 30 40 50 60 nytimes youtube wikipedia sourceforge blogspot netflix 这幅图显示了不同系统,相 隔t天的两天,item热门程度 的相似度。 图表显示,NYTimes的演化很 快,相隔1天,item的热门程 度就会有很大的变化。而对 于Netflix,即使过了2个月, 热门电影也没有太大的变化 37 模型和算法 • 时间段图模型 38 A B a b c A B a b c A:1 A:2 B:1 B:2 A B a b c A:1 A:2 B:1 B:2 a:1 b:1 c:2 (A,a,1) (A,c,2) (B,b,1) (B,c,2) 模型和算法 • 时间段图模型 39 A B a b c A:1 A:2 B:1 B:2 a:1 b:1 c:2 顶点权重定义 用户u对物品i的兴趣函数: 实验分析 • 数据集 • 评测指标 – Precision/Recall 数据集 用户数 物品数 稀疏度 Nytimes 4947 7856 99.65% Youtube 4551 7526 99.72% Wikipedia 7163 14770 99.86% Sourceforge 8547 5638 99.65% Blogspot 8703 10107 99.82% 40 实验分析 • 实验结果 41 8种算法在5个数据集上的召回率(N = 20) 时效性的影响 • 实验结果 42 43 主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 44 动态推荐系统原型 • 推荐系统架构 45 用户界面 日志系统 推荐引擎用户行为数 据库 行为提取和分析 相关推荐 结果过滤和排名 用户行为数据库 用户兴趣特征 初步推荐结果 最终推荐结果 用户行为模型 相似度表 用户反馈模型 离线系统在线系统 推荐解释 动态推荐系统架构 46 主要内容 • 引言 • 动态评分预测问题 • 动态Top-N推荐问题 • 时效性的影响 • 动态推荐系统原型 • 小结与展望 47 小结与展望 • 小结 – 基于矩阵分解的动态用户兴趣模型 – 考虑用户长期兴趣和短期兴趣的动态用户兴趣 模型 – 网站时效性对用户行为和推荐系统设计的影响 48 小结与展望 • 展望 – 用户不同种类行为的动态模型 – 用户兴趣动态模型对推荐系统其他指标的影 – 推荐系统随时间的演化规律 49 感谢杨老师的指导 感谢各位评审老师 Q&A

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档