扫码关注官方订阅号
写爬虫爬网站内容时遇到ip被封,请问如何使用代理? 用了网上搜到的http://www.cnproxy.com/ 代理服务器中的ip和端口,没有一个可以用的。。。 请高手帮忙。小弟多谢
欢迎选择我的课程,让我们一起见证您的进步~~
考虑一下几点建议: 1.使用VPN,这样就完全保证了你的出口IP地址是VPN服务器端的IP。 2.使用HTTP代理,具体代码可以都可以设置代理方式,不要使用免费代理,不可靠,自己用VPS来搭建或者自己写,我个人就是自己用Node.js写的代理服务器在美国 3.爬虫抓取过程中请遵循robot协议,这是默认的业界标准
(1) 我觉得解决这个问题的终极办法是写出不让人讨厌的爬虫; (2) 代理也分很多种,有的可以完全隐藏你的源IP,有的不可以,所以不要指望代理可以解决你的所有问题,而且,免费的代理基本是不可能隐藏你的源IP的; (3) 或者,你可以更改系统底层TCPIP实现,在网络层动手脚。
现在网上付费的代理很多,价格都很便宜,比用免费的好多了,当时我买的大概不到1分钱一个吧。我当时花了几十块钱,基本上就扛了一两个月的爬虫使用。 因为卖代理的也是通过各种渠道去抓的一些http代理,成本几乎为0。 当时买代理那个网站好像已经被关了,他们做得还比较好,还提供http接口取代理ip,还可以选择代理的地点,类型等等,非常方便。 据我当时的经验,这些代理也都还可以。程序支持curl的话,直接设置代理就行了。如果再完善一点,就把 X-FORWORD-FOR等类似的能够溯源的HTTP头也人为设置一下。基本上封IP这一套就对你没用了。
正好最近我研究过,找代理服务器时最好找国内的,不要找国外的。因为代理服务器既要跟你的电脑连通,还要跟你所爬的网页的服务器连通,显然国外的经常满足不了。我推荐一个含有国内代理服务器的网站给你http://www.itmop.com/proxy/。
我也碰到这个问题,最好的解决还是付费的代理,去淘宝买。
最好还是用代理~~~
chongdata.com 是一个网络爬虫~可以大规模提取网页关键字, 有凡客和淘宝的价格提取案例
模拟adsl拨号,这样,每拨一次,IP就不一样
降低抓取频率,时间设置长一些,访问时间采用随机数多页面数据,随机访问然后抓取数据更换用户IP(可以买一些代理ip)
网站封的依据一般是单位时间内特定IP的访问次数.将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.
推荐大家使用下神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
考虑一下几点建议:
1.使用VPN,这样就完全保证了你的出口IP地址是VPN服务器端的IP。
2.使用HTTP代理,具体代码可以都可以设置代理方式,不要使用免费代理,不可靠,自己用VPS来搭建或者自己写,我个人就是自己用Node.js写的代理服务器在美国
3.爬虫抓取过程中请遵循robot协议,这是默认的业界标准
(1) 我觉得解决这个问题的终极办法是写出不让人讨厌的爬虫;
(2) 代理也分很多种,有的可以完全隐藏你的源IP,有的不可以,所以不要指望代理可以解决你的所有问题,而且,免费的代理基本是不可能隐藏你的源IP的;
(3) 或者,你可以更改系统底层TCPIP实现,在网络层动手脚。
现在网上付费的代理很多,价格都很便宜,比用免费的好多了,当时我买的大概不到1分钱一个吧。我当时花了几十块钱,基本上就扛了一两个月的爬虫使用。
因为卖代理的也是通过各种渠道去抓的一些http代理,成本几乎为0。
当时买代理那个网站好像已经被关了,他们做得还比较好,还提供http接口取代理ip,还可以选择代理的地点,类型等等,非常方便。
据我当时的经验,这些代理也都还可以。程序支持curl的话,直接设置代理就行了。如果再完善一点,就把 X-FORWORD-FOR等类似的能够溯源的HTTP头也人为设置一下。基本上封IP这一套就对你没用了。
正好最近我研究过,找代理服务器时最好找国内的,不要找国外的。因为代理服务器既要跟你的电脑连通,还要跟你所爬的网页的服务器连通,显然国外的经常满足不了。我推荐一个含有国内代理服务器的网站给你http://www.itmop.com/proxy/。
我也碰到这个问题,最好的解决还是付费的代理,去淘宝买。
最好还是用代理~~~
chongdata.com 是一个网络爬虫~可以大规模提取网页关键字, 有凡客和淘宝的价格提取案例
模拟adsl拨号,这样,每拨一次,IP就不一样
降低抓取频率,时间设置长一些,访问时间采用随机数
多页面数据,随机访问然后抓取数据
更换用户IP(可以买一些代理ip)
网站封的依据一般是单位时间内特定IP的访问次数.
将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.
推荐大家使用下神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。