python - 写爬虫爬网站内容时遇到ip被封，请问如何使用代理？-PHP中文网问答

微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程

python - 写爬虫爬网站内容时遇到ip被封，请问如何使用代理？

天蓬老师 2017-04-17 15:48:01

[Python讨论组]

479

写爬虫爬网站内容时遇到ip被封，请问如何使用代理？
用了网上搜到的http://www.cnproxy.com/ 代理服务器中的ip和端口，没有一个可以用的。。。
请高手帮忙。小弟多谢

天蓬老师

欢迎选择我的课程，让我们一起见证您的进步~~

全部回复(9)

迷茫2017-04-17 15:50:01 9楼

考虑一下几点建议：
1.使用VPN，这样就完全保证了你的出口IP地址是VPN服务器端的IP。
2.使用HTTP代理，具体代码可以都可以设置代理方式，不要使用免费代理，不可靠，自己用VPS来搭建或者自己写，我个人就是自己用Node.js写的代理服务器在美国
3.爬虫抓取过程中请遵循robot协议，这是默认的业界标准

赞 +0

添加回复

迷茫2017-04-17 15:50:01 8楼

(1) 我觉得解决这个问题的终极办法是写出不让人讨厌的爬虫；
(2) 代理也分很多种，有的可以完全隐藏你的源IP，有的不可以，所以不要指望代理可以解决你的所有问题，而且，免费的代理基本是不可能隐藏你的源IP的；
(3) 或者，你可以更改系统底层TCPIP实现，在网络层动手脚。

赞 +0

添加回复

ringa_lee2017-04-17 15:50:01 7楼

现在网上付费的代理很多，价格都很便宜，比用免费的好多了，当时我买的大概不到1分钱一个吧。我当时花了几十块钱，基本上就扛了一两个月的爬虫使用。
因为卖代理的也是通过各种渠道去抓的一些http代理，成本几乎为0。
当时买代理那个网站好像已经被关了，他们做得还比较好，还提供http接口取代理ip，还可以选择代理的地点，类型等等，非常方便。
据我当时的经验，这些代理也都还可以。程序支持curl的话，直接设置代理就行了。如果再完善一点，就把 X-FORWORD-FOR等类似的能够溯源的HTTP头也人为设置一下。基本上封IP这一套就对你没用了。

赞 +0

添加回复