扫码关注官方订阅号
要爬的网站是写的很规范的数据库网站。 在从目录条目加载到到详情页面过程,查看了一下javascript后发现是通过数据库查询完成的。 整个网站条目有上千万,所以需要考虑到效率问题。 我知道已知的方案有selenium,phantomjs。 求指点。
业精于勤,荒于嬉;行成于思,毁于随。
打开调试工具研究ajax请求,找到规律后自己仿照着发送
关键字 headless
请参考stackoverflow上的一个提问Headless Browser and scraping - solutions
你看到PhantomJS的出现频率,应该知道怎么选了吧。
当然,CasperJS的API比较舒服一点
研究一下ajax的规则,然后带上cookie抓
https://github.com/scrapinghub/scrapy-splash
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
方案1:
打开调试工具研究ajax请求,找到规律后自己仿照着发送
方案2:
关键字 headless
请参考stackoverflow上的一个提问
Headless Browser and scraping - solutions
你看到PhantomJS的出现频率,应该知道怎么选了吧。
当然,CasperJS的API比较舒服一点
研究一下ajax的规则,然后带上cookie抓
https://github.com/scrapinghub/scrapy-splash