Month: July 2018

转-Java爬虫

GitHub 上有哪些优秀的 Java 爬虫项目? 别凡熙 官方非认证账号 http://uwhile.com 1.nutch 地址:apache/nutch · GitHub apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。而且这玩意儿还包括了一个开箱即用的搜索引擎,安装好就可以搜索了。 2.Heritrix 地址:internetarchive/heritrix3 · GitHub 很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。 3.crawler4j 地址:yasserg/crawler4j · GitHub 因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。 当然,上面说的nutch有的功能比如数据存储不代表Heritrix没有,反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~ 还有比如JSpider,WebEater,Java Web Crawler,WebLech,Ex-Crawler,JoBo等等