Python爬虫程序运行“卡顿”
PHP中文网
PHP中文网 2017-04-18 09:29:28
[Python讨论组]


用Python爬取某网站两个月的数据,程序“卡顿”,但并未报错,也未结束。如上图所示。
例如,我把时间循环设置为2016.8.1--2016.10.1,抓取到数据的就只能到2016.9.4,然后程序也没运行结束,但数据库也一直没有更多的数据进入。出现“卡顿”。

然后我换了台配置更好的电脑,情况会好很多,可以抓取半年的数据。本来我想抓一年的数据,但抓取到半年的数据的数据后,也会出现如图所示的情况,并且数据库也一直未添加更多的数据。即“卡顿”。

我想知道有没有办法能够一次抓取的数据多点??

PHP中文网
PHP中文网

认证0级讲师

全部回复(2)
PHPz

出现阻塞的原因是什么呢?你可以通过以下方式分析:

1,抓包分析,是不是网络原因;
2,你写的爬虫是用什么框架,是urllib2还是scrapy框架,查看日志情况。
3,查看是否是url池已经处理完,没有新的目标任务添加到爬取队列。

PHP中文网

可以使用多线程,每个线程处理一个月的数据,这样即使哪个月的数据出了问题依然能够保证大多数数据的完整性,然后具体分析出问题的月份的数据的情况。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号