python - 知道一个微信公众号以后,如何采集指定的文章?
PHP中文网
PHP中文网 2017-04-18 09:48:34
[Python讨论组]

这是逻辑思维的微信公众号地址:
http://mp.weixin.qq.com/profile?src=3&timestamp=1475768533&ver=1&signature=WuQBZj2062fY9CO-nA8EqWxenuWJ9MUgKYKLX7rK9bkJ7KN1uJm62tWYcvV2CrZ4vryVP7*yYBuEqTXVFRJzOQ==

但是我是通过weixin.sogou.com这个通过公众号名称搜索进去,然后获取到对应的网址的.
但是这样感觉非常麻烦,因为搜狗的反爬虫做得很厉害,时不时出现验证码不说,还要换ip~
如果这样,等于是要放请求一次了~

有没有比较好的方法,可以直接构建出公众号的请求网址..
对了顺便问下,这个采集微信的文章,一定要:

  1. 大量的代理ip?

  2. 验证码识别?

PHP中文网
PHP中文网

认证0级讲师

全部回复(3)
黄舟

你给的公众号的地址其实存在过期的可能,有时间戳,有签名,存在不能打开的可能性。

PHPz

试试神箭手云爬虫平台的微信公众号文章[多公众号] 采集爬虫支持云端自动采集,实时更新~
爬虫链接:http://www.shenjianshou.cn/in...

PHPz

搜狗的反爬虫确实厉害,但是出现验证码不是坏事,反而是好事,从无奈的角度。。。之前设计的过程是使用:requests抓取搜索结果,得到具体的网页url,然后抓取里面内容。为了防止出现验证码导致内容抓取不完全,最后是通过添加判断页面是否进入验证码界面来调用虚拟浏览器,人工填入验证码,当然这个部分你可以使用opencv之类的,进行图像识别,主要看划算不划算。
PS:已经使用过代理和大量IP了,都没有上述方法好用。而且实际上,出现验证码次数不多,而通过代理ip等基本上次次出现验证码,不知道搜狗的反爬虫策略是什么,有点厉害啊。
还试验过,代理+tor的 不过最后还是不行。。。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号