python - xpath中可以插入正则表达式吗?
怪我咯
怪我咯 2017-04-17 13:51:51
[Python讨论组]

想要爬取一个网站,这个网站的不同网页的正文部分的xpath是不一样的,比如:
有个页面的正文部分是://*[@id='postmessage_32199']
另一个是://*[@id='postmessage_32153']
......
它们的格式是postmessage_xxxxx,x为数字。

我的问题是:xpath中可以使用用正则表达式吗?如果不能那怎么匹配这么多不同的xpath?

ps:我是用的是python的scrapy框架

提前感谢各位了。

怪我咯
怪我咯

走同样的路,发现不同的人生

全部回复(1)
迷茫

你用 https://github.com/binux/pyspider 我就告诉你


//*[starts-with(@id, "postmessage_")]
或者
doc.xpath(r'//*[re:match(@id, "postmessage_\d+")]', namespaces={"re": "http://exslt.org/regular-expressions"})

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号