| 注册
请输入搜索内容

热门搜索

Java Linux MySQL PHP JavaScript Hibernate jQuery Nginx
jopen
11年前发布

基于JAVA的网络爬虫脚本语言:CrawlScript

CrawlScript 基于JAVA的网络爬虫脚本语言,可以直接使用或用JAVA二次开发。

网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单的操作。鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫。同时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用。

CrawlScript是跨平台的,在任何有JDK环境的电脑上都可以运行,无论是windows、linux还是unix。

运行CrawlScript的方法:用命令行进入工程里的CrawlScript-bin文件夹,java -jar crawlscript.jar即可进入crawlscript的shell。输入doc=$("http://www.baidu.com") ,回车,可看到百度网页的所有文字。

运行CrawlScript源码的方法:将工程中的CrawlScript文件夹,用eclipse以导入已有项目的方式导入,运行项目中的MyShell.java即可打开脚本shell,在shell中即可编写CrawlScript脚本,例如: doc=$("http://www.baidu.com"); print(doc.a());


 

项目主页:http://www.open-open.com/lib/view/home/1390097926898

 本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
 转载本站原创文章,请注明出处,并保留原始链接、图片水印。
 本站是一个以用户分享为主的开源技术平台,欢迎各类分享!
 本文地址:https://www.open-open.com/lib/view/open1390097926898.html
网络爬虫 CrawlScript