php simple_html_dom拉去大量数据解决方案
PHPz
PHPz 2017-04-10 17:57:07
[PHP讨论组]

通过simple_html_dom,我想拉取70000个页面的数据,每个页面url格式一样,所以我用for进行遍历,浏览器在进行过程中总是出现问题,比如
file_get_contents(http://o.uhin.org/i1.aspx): failed to open stream: HTTP request failed!
请问如何解决这类问题

PHPz
PHPz

学习是最好的投资!

全部回复(3)
黄舟

用curl获取网页数据,看看curl_error是什么。
另外这个应该算是一个小型爬虫了,建议你直接在cli运行

天蓬老师

1、不要在http请求里做大量的循环抓取,会超时的;使用cli去做;
2、不要直接抓取直接解析,用一个任务去抓取回来保存到本地,另外一个任务去做解析;
3、使用另外一个 HtmlParser (http://www.oschina.net/p/html...) 代替 simple_html_dom,效果高很多,我亲自试过;

怪我咯

看看php爬虫,或者使用phpquery

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号