网页爬虫 - Python正则表达式问题
高洛峰
高洛峰 2017-04-18 09:04:13
[Python讨论组]

我要匹配html的一个<p class>这个标签,但是这个网页里有很多其他的p标签,比如<p class='article'>这样的标签。我不需要其他的p,我就要匹配p class,那么该如何匹配?

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全部回复(6)
怪我咯

可以试试 beautifulsoup

PHPz

BeautifulSoup指哪打哪.

PHP中文网

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"lxml")
art = soup.find("p",attrs={"class":"article"})
print art

PHP中文网

建议使用XPath

伊谢尔伦

额,你用的解析库是什么呢?不是直接用正则解析整个页面吧?把问题描述详细点

大家讲道理
^\<p class\>$

利用行首、行尾限定符来精确匹配即可。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号