世界领先的数据爬虫 :myspider
功能
- 用户友好,一个管控界面解决全部问题
- 新站点抓取无需重新部署
- 天生分布式。支持集群动态扩、缩容
- 精准解析。解析脚本化,支持Groovy, Javascript, python
- 支持的去重方式:redis, mongodb, ehcache, 内存
- 支持的队列: redis, mongodb(可靠抓取), ehcache, 内存
- 支持伪分布式:一台机器模拟集群。
- 支持大集群虚拟分组功能:隔离故障,降低维护成本。
- 模块化:方便地使用脚本在运行时控制proxy,http header, url
- 直接对接maven库,让部署新任务自动化、规范化
- 分布式自动调度:无论单机还是多机都提供可靠的调度。不重复,不遗漏。
- 提供低资源占用的js动态渲染解决方案:抓取ajax内容从此简单。
- 增量抓取功能:新闻,股票,竞品数据...
- 多页面数据合并功能:一条完整数据横跨几个页面?没关系!
- 分页抓取功能,毫无乱序。
- 提供辅助功能,利用机器学习实现无解析化抓取(实验特性)
- 提供多种数据持久化策略:无论您想直接保存在db,还是希望实时处理,想要的都可以满足。
- 登录:你懂的。
- 验证码破解服务:你懂的,不罗嗦。
- 提供多种变幻莫测的代理策略:当然你只需要管控界面上动动鼠标。
- 解析太头疼?看看解析工具里的武器。表格,列表只需一条语句。
- OCR太深奥?我都给你包好了,绝不放过任何一条数据。
运行
以IDEA为例,导入工程。新建一个run Configuration, 选择gradle 然后就可以run或者debug。
本文由用户 jopen 自行上传分享,仅供网友学习交流。所有权归原作者,若您的权利被侵害,请联系管理员。
转载本站原创文章,请注明出处,并保留原始链接、图片水印。
本站是一个以用户分享为主的开源技术平台,欢迎各类分享!