python - 如何判断rss是否更新过
大家讲道理
大家讲道理 2017-04-17 14:47:55
[Python讨论组]

最近在写一个python程序要把一些rss中的文章不断获取下来

但不知道怎么判断rss是否更新过,只获取那些更新出来的文章

目前的想法是对每一个rss存一个最新文章的时间,下一次把所有更新的文章获取下来,然后更新这个最新时间


对了还有另外一个问题,就是感觉rss中的文章数没有网页上多,貌似好几天才有新的,但网页上是每天都有的,是什么原因?

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全部回复(3)
ringa_lee

理论上来说,rss在http header应该返回一个last-modified或者etag(atom),可以通过这个来判断

python的feedparser中,可以这样用

import feedparser
d = feedparser.parse(rss_url)
d = feedparser.parse(rss_url, modified=d.modified, etag=d.etag)
d.status # 304
d.feed # {}

如果没有更新的话,第二次就不会获取到东西

迷茫

rss不是有guid嘛,把最新的guid存一个,再爬的时候判断一下呗,rss有没有更新那是别人服务端程序自己的事,你也控制不了

黄舟

lz,求这个程序代码!毕设题目是这个,想请教楼主大大帮帮忙,零基础,如何快速做完这个项目,蟹蟹

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号