| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
fireRabit
9年前发布

HtmlUnit 模拟浏览器以及Cookie使用示例

最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑。 闲话少说。目前htmlunit的最新版本是2.15,可以从这里下载:http://sourceforge.net/projects/htmlunit/files/htmlunit/2.15/

String  url="http://xxxx.xx/";//想采集的网址              String refer="http://xxx.xx/";              URL link=new URL(url);               WebClient wc=new WebClient();              WebRequest request=new WebRequest(link);               request.setCharset("UTF-8");              request.setProxyHost("x.120.120.x");              request.setProxyPort(8080);              request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段              ////设置请求报文头里的User-Agent字段              request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");              //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");              //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。              //其他报文头字段可以根据需要添加              wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理              wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的              wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。              wc.getOptions().setThrowExceptionOnFailingStatusCode(false);              wc.getOptions().setThrowExceptionOnScriptError(false);              wc.getOptions().setTimeout(10000);              //设置cookie。如果你有cookie,可以在这里设置              Set<Cookie> cookies=null;              Iterator<Cookie> i = cookies.iterator();              while (i.hasNext())               {                  wc.getCookieManager().addCookie(i.next());              }              //准备工作已经做好了              HtmlPage page=null;              page = wc.getPage(request);              if(page==null)              {                  System.out.println("采集 "+url+" 失败!!!");                  return ;              }              String content=page.asText();//网页内容保存在content里              if(content==null)              {                  System.out.println("采集 "+url+" 失败!!!");                  return ;              }              //搞定了              CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name              Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。