特色文章

最近备份2018-02-21

如果有文章侵犯了您的版权,请联系我yawenqq@126.com处理删除。

screen -ls
screen -S newsession
screen -r oldsession
cd ./go
./shadowsocks-server-linux64-1.1.5
//VPN
iptables -t nat -A POSTROUTING -s 192.168.0.0/24 -o eth0 -j MASQUERADE
//SPEEDUP
nohup /usr/local/net_speeder/net_speeder eth0 "ip" >/dev/null 2>&1 &
//FORWARD
echo 1 > /proc/sys/net/ipv4/ip_forward
iptables -t nat -A PREROUTING -p tcp --dport 8388 -j DNAT --to-destination US_VPS_IP:8388
iptables -t nat -A POSTROUTING -p tcp -d US_VPS_IP --dport 8388 -j SNAT --to-source JAPAN_VPS_IP

 

chrome 离线下载: https://www.google.cn/intl/zh-CN/chrome/browser/desktop/index.html?standalone=1

转-Java爬虫

1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。而且这玩意儿还包括了一个开箱即用的搜索引擎,安装好就可以搜索了。

2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。

当然,上面说的nutch有的功能比如数据存储不代表Heritrix没有,反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~

还有比如JSpiderWebEaterJava Web CrawlerWebLechEx-CrawlerJoBo等等