扫码关注官方订阅号
现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了
闭关修行中......
1.定时用Linux工具crontab 2.爬取用php的file_get_contents函数足矣,不行就用php_curl扩展 3.内容用正则表达式匹配
新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29
如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如
curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head HTTP/1.1 200 OK Server: FSCS/1.2.5 Date: Fri, 13 Mar 2015 01:23:25 GMT Content-Type: text/html; charset=GBK Content-Length: 162187 Connection: keep-alive Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT Vary: Accept-Encoding ETag: "55023ae1-2798b" ......
这里面, Last-Modified就是可以近似当做他的时间啦.
写好抓取脚本,用Linux crontab定时去执行。
Linux crontab
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
1.定时用Linux工具crontab
2.爬取用php的file_get_contents函数足矣,不行就用php_curl扩展
3.内容用正则表达式匹配
新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29
如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如
curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head
HTTP/1.1 200 OK
Server: FSCS/1.2.5
Date: Fri, 13 Mar 2015 01:23:25 GMT
Content-Type: text/html; charset=GBK
Content-Length: 162187
Connection: keep-alive
Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT
Vary: Accept-Encoding
ETag: "55023ae1-2798b"
......
这里面, Last-Modified就是可以近似当做他的时间啦.
写好抓取脚本,用
Linux crontab定时去执行。