正则表达式 - 请问用 Python 如何匹配汉语拼音?
ringa_lee
ringa_lee 2017-05-27 17:39:30
[Python讨论组]

比如用正则表达式匹配出 shá 这个拼音。
ps:之前说的可能不明确,我用了 “ 比如 ” 两字哈,就是待处理文本里有拼音,但是不知道具体拼音是什么,需要找出这些拼音,待处理文本会有 中文、拼音、符号(,。:之类的),所以请不要回答诸如re.search(u'shá',text) 要正则哈,不是简单固定的字符串。。。

ringa_lee
ringa_lee

ringa_lee

全部回复(3)
巴扎黑
import re
regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b')
text = "Thǐs ís à pìnyin abóut shá"
m = regex.findall(text)
print(m)

匹配结果:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
没有匹配第一个Thǐs,因为默认拼音都是小写,排除了大写。

PHPz

你是要匹配所有合法的拼音吗?

如果是,你去找个字典的拼音索引,把里边的所有拼音全部 | 到一起就可以了。也只能这样,因为拼音不是根据正则,或者其它某种机械的规则定义出来的。你想不漏又不多就只能这样了,反正也没多少个。

伊谢尔伦
>>> import re
>>> d='shá'
>>> data='This is a pinyin about shá'
>>> re.search(d,data)
<_sre.SRE_Match at 0x404e308>
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号