python正则表达式有多个条件
迷茫
迷茫 2017-04-17 17:53:55
[Python讨论组]

用python的beautifulsoup提取xml文件标签,想用正则表达式匹配两个条件,比如

<test>
 <a>111</a>
 <c>123</c>
</test>
<test>
 <b>222</b>
 <c>123</c>
</test>

现在想用正则表达式提取两个标签的内容,就是<a>标签跟<b>标签的内容都要取到,请问该如何写这个正则表达式呢

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(3)
天蓬老师

簡單的用:

soup(['a', 'b'])

就可以囉,如果沒有太複雜的條件,可以不用正規吧。

伊谢尔伦
import re
pat = re.compile(r'<(a|b)>(.*?)</\1>', re.M)
for m in pat.finditer:
    print(m.group(2))

说明:

  • 考虑到这里的<a>标签没有属性, 如果有, 可用r'<(a|b).*?>(.*?)</\1>'.

  • m.group(1)是指标签名, 即a或者b. m.group(2)则是标签内容.

  • .*?是惰性匹配.

  • .finditer是返回匹配的迭代器, 找它费了点时间.

  • 因为标签名不确定, 所以结束标签使用\1来反向引用标签名, 毕竟开始和结尾标签名要相同.

怪我咯

pyquery

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号