用MapReduce做相似度分析

Q：

有一批数据（10亿量级），数据内容包括：

列	类型
id	INT
content	String

id为key，全局唯一
content为一个句子

列之间以\t分割

like：
1 “互联网够公司的日志无处不在，web日志，js日志，搜索日志，监控日志等等”
2 "对于这些日志的离线分析（Hadoop），wget&rsync虽然人力维护成本较高，但可以满足功能行需求。但对于这些日志的实时分析需求（例如实时推荐，监控系统），则往往必须要引入一些“高大上”的系统"
计算每行数据的content和其他数据content的相似度

A：

两轮MapReduce：
第一轮：
按照一定规则分割content，并以分割后的content内容为key，value为id，reduce阶段对value做排序后两两输出，实例如下：
原始数据：
10 X
20 Y
30 Z
假设X可以分割为A、B、C， Y可以分割为A、C、D， Z可以分割为A、D
则第一轮mapper的输出为：
<A,10>
<B,10>
<C,10>
<A,20>
<C,20>
<D,20>
<A,30>
<D,30>
使用分割后的content做key
reducer的输入为：
A {10,20,30}
B {10}
C {10,20}
D {10}
reduce计算逻辑：对value组按大小排序，排序后按序两两输出，组大小为1的不输出
reducer输出为
10,20    ----from A {10,20,30}
10,30      ----from A {10,20,30}
20,30      ----from A {10,20,30}
10,20 ----from C {10,20}

第二轮map-reduce：
对第一轮输出的数据做聚合，value为出现次数
10,20 2
10,30 1
20,30 1

本文由用户 jopen 自行上传分享，仅供网友学习交流。所有权归原作者，若您的权利被侵害，请联系管理员。

转载本站原创文章，请注明出处，并保留原始链接、图片水印。

本站是一个以用户分享为主的开源技术平台，欢迎各类分享！

本文地址：https://www.open-open.com/lib/view/open1387804957906.html

MapReduce 分布式/云计算/大数据

热门搜索

用MapReduce做相似度分析

Q：

A：