网页爬虫 - Python beautifulsoup 爬虫如何实现翻页啊?
迷茫
迷茫 2017-04-18 09:21:26
[Python讨论组]


只想提取下一页上的href啊!

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(4)
怪我咯

这个很明显了吧,
下一页是list_1_2.html,最后一页是list_1_117.html
中间页数是3到116啊
用一个for循环

for page in range(1, 118):
    url = "..list_1_{}.html".format(page)
    ....
黄舟

希望对你有帮助:http://imchenkun.com/archives/6/ (不是广告,只是提供一个思路)

黄舟

我简单说一下

  1. ul = soup.find('p',attr={'class':'page'}).ul

  2. lis = ul.find_all('li')

  3. next = lis[-2]['href'] 因为下一页在倒数第二个,直接[-2],得到href属性即可
    爬虫写的不多,函数可能用的不对,但大致思路差不多。

PHP中文网

获取下一页的html,然后请求下一页就可以了

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号