jopen

10年前发布

世界领先的数据爬虫 :myspider

功能

用户友好,一个管控界面解决全部问题
新站点抓取无需重新部署
天生分布式。支持集群动态扩、缩容
精准解析。解析脚本化，支持Groovy, Javascript, python
支持的去重方式：redis, mongodb, ehcache, 内存
支持的队列： redis, mongodb(可靠抓取), ehcache, 内存
支持伪分布式：一台机器模拟集群。
支持大集群虚拟分组功能：隔离故障，降低维护成本。
模块化：方便地使用脚本在运行时控制proxy，http header, url
直接对接maven库，让部署新任务自动化、规范化
分布式自动调度：无论单机还是多机都提供可靠的调度。不重复，不遗漏。
提供低资源占用的js动态渲染解决方案：抓取ajax内容从此简单。
增量抓取功能：新闻，股票，竞品数据...
多页面数据合并功能：一条完整数据横跨几个页面?没关系！
分页抓取功能，毫无乱序。
提供辅助功能，利用机器学习实现无解析化抓取（实验特性）
提供多种数据持久化策略：无论您想直接保存在db，还是希望实时处理，想要的都可以满足。
登录：你懂的。
验证码破解服务：你懂的，不罗嗦。
提供多种变幻莫测的代理策略：当然你只需要管控界面上动动鼠标。
解析太头疼？看看解析工具里的武器。表格，列表只需一条语句。
OCR太深奥？我都给你包好了，绝不放过任何一条数据。

运行

以IDEA为例，导入工程。新建一个run Configuration, 选择gradle 然后就可以run或者debug。

项目主页：http://www.open-open.com/lib/view/home/1450965751058

本文由用户 jopen 自行上传分享，仅供网友学习交流。所有权归原作者，若您的权利被侵害，请联系管理员。

转载本站原创文章，请注明出处，并保留原始链接、图片水印。

本站是一个以用户分享为主的开源技术平台，欢迎各类分享！

本文地址：https://www.open-open.com/lib/view/open1450965751058.html

myspider 网络爬虫