node.js - 关于微博的爬虫问题!!?
怪我咯
怪我咯 2017-04-17 13:04:12
[Node.js讨论组]

不知道各位爬虫过微博的页面么?
今天我试了试,获取到的html内容居然不是我想要的!!
全是js内容,
我猜测微博是实用js文件加载内容的。

那么问题来了,
我要怎么获取js加载后的页面内容呢?就是body里面的标签内容。

我使用的是nodejs,superangert、cheerio、express。
望大神赐教,小弟感恩不尽。

怪我咯
怪我咯

走同样的路,发现不同的人生

全部回复(3)
阿神

微博都是动态加载的,难度比较大

可以试试WAP版本的 http://weibo.cn/

PHP中文网

1)用正常的URL请求取访问,获取返回的内容存在本地发文件后,check下和最终的HTML文件内容有那些区别
2)你用下chrome的开发工具或firebug等工具查看页面的网络请求,查找其中的有关的http请求,特别是那些JSONP的请求
3)有些内容是要LAZY加载的,还需要你进一步观察~~~~
4)如果你对实时性要求不高的,可以考虑用phantomJS或electron等框架,让HTML渲染引擎完全渲染后,在抓取内容

总之,现在页面越来越难抓了~~~,
另外爬虫,要用到express么?superangert用来做代理?

黄舟

试试神箭手云爬虫平台的新浪微博爬虫[按微博昵称爬取]支持云端自动采集,实时监控更新~
爬虫链接:http://www.shenjianshou.cn/in...

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号