Nutch 插件 Anthelion
Anthelion 是 Nutch 插件,专注于爬取语义数据。
注意:此项目包括完整的 Nutch 1.6 版本,此插件放置在 /src/plugin/parse-anth
Anthelion 使用在线学习方法来基于页面上下文预测富数据 Web 页面,从之前查看的页面提取的元数据获取反馈。
主要有三个扩展:
-
AnthelionScoringFilter
-
WdcParser
-
TripleExtractor
示例:
本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!