转网络爬虫

 

1、crawler4j github.com/yasserg/craw 拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

2、雅虎开源的web爬虫工具 github.com/yahoo/anthel

3、github.com/code4craft/w · GitHub ,国人 黄亿华 先生的良心大作。文档在这里 webmagic.io/docs/zh/

4、nutch github.com/apache/nutch apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。

5、github.com/ShenJianShou 没有找到源代码,属于云爬虫;jsoup包含http工具以及分析页面的工具包 jsoup.org/okhttpshttp工具包

6、Spiderman git.oschina.net/l-weiwe 最后更新一个月前

7、SeimiCrawler github.com/zhegexiaohuo 最后更新一个月前神射手

8、WebCollector github.com/CrawlScript/ 最后更新四个月前

9、Heritrix github.com/internetarch 比较成熟,用的人比较多

10、Gecco github.com/xtuhcy/gecco 最后更新一个月前

11、WebMagic github.com/code4craft/w 最后更新十五天前