| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
jopen
12年前发布

Java多线程Web爬虫 Crawler4j

Java多线程Web爬虫 Crawler4j
Crawler4j是一个开源的Java Web爬虫,提供一个用于抓取Web页面的简单接口。您可以在5分钟内建立一个多线程的网络爬虫!

示例代码:

import java.util.ArrayList;  import java.util.regex.Pattern;    import edu.uci.ics.crawler4j.crawler.Page;  import edu.uci.ics.crawler4j.crawler.WebCrawler;  import edu.uci.ics.crawler4j.url.WebURL;    public class MyCrawler extends WebCrawler {            Pattern filters = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g"                  + "|png|tiff?|mid|mp2|mp3|mp4"                  + "|wav|avi|mov|mpeg|ram|m4v|pdf"                  + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");                   public MyCrawler() {          }            public boolean shouldVisit(WebURL url) {                  String href = url.getURL().toLowerCase();                  if (filters.matcher(href).matches()) {                          return false;                  }                  if (href.startsWith("http://www.ics.uci.edu/")) {                          return true;                  }                  return false;          }            public void visit(Page page) {                  int docid = page.getWebURL().getDocid();                  String url = page.getWebURL().getURL();                          String text = page.getText();                  ArrayList<WebURL> links = page.getURLs();                        }  }

项目主页:http://www.open-open.com/lib/view/home/1350054122400

 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1350054122400.html
爬虫 网络爬虫