Java多线程Web爬虫 Crawler4j

Java多线程Web爬虫 Crawler4j
Crawler4j是一个开源的Java Web爬虫，提供一个用于抓取Web页面的简单接口。您可以在5分钟内建立一个多线程的网络爬虫！

示例代码：

import java.util.ArrayList;  import java.util.regex.Pattern;    import edu.uci.ics.crawler4j.crawler.Page;  import edu.uci.ics.crawler4j.crawler.WebCrawler;  import edu.uci.ics.crawler4j.url.WebURL;    public class MyCrawler extends WebCrawler {            Pattern filters = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g"                  + "|png|tiff?|mid|mp2|mp3|mp4"                  + "|wav|avi|mov|mpeg|ram|m4v|pdf"                  + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");                   public MyCrawler() {          }            public boolean shouldVisit(WebURL url) {                  String href = url.getURL().toLowerCase();                  if (filters.matcher(href).matches()) {                          return false;                  }                  if (href.startsWith("http://www.ics.uci.edu/")) {                          return true;                  }                  return false;          }            public void visit(Page page) {                  int docid = page.getWebURL().getDocid();                  String url = page.getWebURL().getURL();                          String text = page.getText();                  ArrayList<WebURL> links = page.getURLs();                        }  }

项目主页：http://www.open-open.com/lib/view/home/1350054122400

本文由用户 jopen 自行上传分享，仅供网友学习交流。所有权归原作者，若您的权利被侵害，请联系管理员。

转载本站原创文章，请注明出处，并保留原始链接、图片水印。

本站是一个以用户分享为主的开源技术平台，欢迎各类分享！

本文地址：https://www.open-open.com/lib/view/open1350054122400.html

爬虫网络爬虫

热门搜索

Java多线程Web爬虫 Crawler4j