boilerpipe 这个Java类库提供算法来探测和删除在一个网页中主文本内容旁多余的重复内容。它已经有提供特殊的策略来处理一些常用的功能如:新闻文章提取。 <DIV class=date>收录时间:2011-03-07 08:52:39</DIV>