网络爬虫 - python cookie 抓取不全问题。
天蓬老师
天蓬老师 2017-04-17 15:54:18
[Python讨论组]
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) 

urllib2.install_opener(opener)

opener.addheaders.append(('Referer', 'http://cn.dongguantoday.com/special/dgoec7/playerc.asp?id=4520'))
opener.addheaders.append(('Accept-Language', 'zh-CN'))
opener.addheaders.append(('Host', 'vote.sun0769.com'))
opener.addheaders.append(('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0'))
opener.addheaders.append(('Connection', 'Keep-Alive'))

postdata = urllib.urlencode({
    'itemID':'4483',
    'resultpage':'http://cn.dongguantoday.com/special/dgoec7/playerc.asp?id=4520',
    'sessionId':'signp1502',
    'metaid':'1502',
    'SurveyCode':'696287',   
})

req1 = urllib2.Request(
    url = 'http://vote.sun0769.com/signup/actiondgoec7.asp?itemid=4520',
    data = postdata
)

result1 = opener.open(req1)

这是主要代码

用这种方式登录网站,发现无论我怎么登录,都会显示下图,然后通过打印cookie和浏览器抓到的包做对比,发现缺少一个cookies,叫A吧;然后会多了一个cookies,叫B吧;

我用浏览器手动删除A发现只要是缺少A,就会被服务器拒绝访问,也会显示下图:


浏览器的cookies:


我脚本获得的cookies:

所以现在我想请教,有什么方法可以抓到那个cookies?我试过将cookies保存在一个文件内,将A直接复制下来,再通过读取文件来访问网站,发现还是不行,那我应该下一步往哪个方向走,去获得正确的cookies,或者说,不会让服务器端拒绝我的访问呢

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

全部回复(0)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号