扫码关注官方订阅号
如果直接用requests,get以后,再用BeautifulSoup去处理,是找不到hidden的内容的。如图所示:
我想获取openBacklog里的内容,求教!
本人不是做前端的,所以对前端的东东不是很专业,还望各位大神不吝赐教。
走同样的路,发现不同的人生
如果仅仅是获取内容,我觉得最好的方式是用正则的方式提取:
import re string = soup.prettify() match = re.search('openBacklog\("(.*?)"\)', string) print(match.group(1))
有可能是, gets得到的源码本身就不全,有一些源码是js生成的,所以跟你查看dom的不一样。
两种方式吧
分析js产生的机制,主要是抓包,看看数据怎么通过哪些请求到js的,然后去模拟请求
使用selenium+plantomjs傻瓜式的抓取
给源地址才好帮你测试,
你右键点页面,选察看网页源代码,看看有没有你想要的内容在里面?如果没有,说明是js动态生成的。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
如果仅仅是获取内容,我觉得最好的方式是用正则的方式提取:
有可能是, gets得到的源码本身就不全,有一些源码是js生成的,所以跟你查看dom的不一样。
两种方式吧
分析js产生的机制,主要是抓包,看看数据怎么通过哪些请求到js的,然后去模拟请求
使用selenium+plantomjs傻瓜式的抓取
给源地址才好帮你测试,
你右键点页面,选察看网页源代码,看看有没有你想要的内容在里面?
如果没有,说明是js动态生成的。