网页爬虫 - Python爬虫: [urllib2.HTTPError: HTTP Error 403: Forbidden]
迷茫
迷茫 2017-04-17 12:58:55
[Python讨论组]

昨天爬豆瓣,没有出现过错误,今早爬成功了一次,接着全部报错。
个人推测,问题在于网站禁止爬虫,如何伪装成浏览器访问?
根据这个stackoverflow答案改写,没有成功,仍然出现Error 403

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(4)
PHPz

不要爬页面了,直接爬api更速度,http://developers.douban.com/wiki/?title=guide

上面说每分钟40次可以忽视,实际上爬出的速度很快的,1小时用python能爬3W+本书吧,不过有时会封IP,不过过一段时间就好了

PHPz

我最近在写一个Python的开源爬虫工具包,里面有模拟浏览器和模拟手机的header的封装:
http://blog.csdn.net/pleasecallmewhy/article/details/24021695

关于怎么模拟header这样应该就可以:

import urllib  
import urllib2  

url = 'http://www.baidu.com'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url,  headers)  
response = urllib2.urlopen(req)  
the_page = response.read() 
大家讲道理

伪装成浏览器的话,主要还是header里的User-Agent字段
另外 requests 这个库用来写爬虫是相当不错的

黄舟

照着浏览器中request headers 的信息伪装下,注意加上抄上cookie的内容。还要注意抓取速度,太快会被发现。还有就是注意程序中的输出log, 发现403的话(注意程序中对错误url的retry),打开浏览器刷下下豆瓣,输入提示的验证码,因为同一个cookie的这么多次的请求也会被发现的。
当然api能提供的信息,就使用api。上述是要获取信息,api不提供时不得已的方法。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号