前言---- 为什么要用代理在网络抓取的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力,所以你一直用同一个代理IP爬取这个网页
,很有可能IP会被禁止访问网页,所以基本上做爬虫的都躲不过去IP的问题,需要很多的IP来实现自己IP地址的不停切换,达到正常抓取信息的目的。
这里顺便推荐一个githup开源项目https:github.comjhao104proxy_pool:该项目通过采集几个常用免费代理网站的代理ip, 构建自己的代理ip池。
实现思路运行tor在Python中使用Tor作为selenium的代理对一个目标网站发起请求重复步骤2和3 实现代码from stem import Signalfrom stem.control import
北荷兰省 阿姆斯特丹运营商 : torservers.net 数据二 : 荷兰 数据三 : 德国 URL : http:www.cip.cc185.220.101.5 第4次请求