javascript - 用scrapy爬虫结合什么第三方解析js动态加载网页比较好?
迷茫
迷茫 2017-04-10 14:56:01
[JavaScript讨论组]

要爬的网站是写的很规范的数据库网站。
在从目录条目加载到到详情页面过程,查看了一下javascript后发现是通过数据库查询完成的。
整个网站条目有上千万,所以需要考虑到效率问题。
我知道已知的方案有selenium,phantomjs。
求指点。

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(3)
PHP中文网

方案1:

打开调试工具研究ajax请求,找到规律后自己仿照着发送

方案2:

关键字 headless

请参考stackoverflow上的一个提问
Headless Browser and scraping - solutions

你看到PhantomJS的出现频率,应该知道怎么选了吧。

当然,CasperJS的API比较舒服一点

黄舟

研究一下ajax的规则,然后带上cookie抓

黄舟

https://github.com/scrapinghub/scrapy-splash

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号