扫码关注官方订阅号
认证高级PHP讲师
html 漏了u?另外看下你整个文件保存的字符集,不然即使你加了u,如果文件是GBK的那么也可能遇到一些意外的问题。
字符集不同,如@DDTDDT 所说,你的html缺了unicode的标记u,但是正则表达式却用了unicode
你的微信号后面的冒号,一个是半角,一个是全角
可以使用Beautiful Soup
你正则表达式是 unicode 编码的,你的 html 是字符串类型的,在 python2 中中文字符一般设置成的是utf-8编码,你用 unicode 字符串的正则去获取 utf-8 编码的字符串当然就匹配失败了。
建议将 html 用 unicode 编码。
也就是拿到 utf-8 编码的html后 ,content = html.decode('utf-8')
content = html.decode('utf-8')
再用正则匹配 content
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
html 漏了u?
另外看下你整个文件保存的字符集,不然即使你加了u,如果文件是GBK的那么也可能遇到一些意外的问题。
字符集不同,如@DDTDDT 所说,你的html缺了unicode的标记u,但是正则表达式却用了unicode
你的微信号后面的冒号,一个是半角,一个是全角
可以使用Beautiful Soup
你正则表达式是 unicode 编码的,你的 html 是字符串类型的,在 python2 中中文字符一般设置成的是utf-8编码,你用 unicode 字符串的正则去获取 utf-8 编码的字符串当然就匹配失败了。
建议将 html 用 unicode 编码。
也就是拿到 utf-8 编码的html后 ,
content = html.decode('utf-8')再用正则匹配 content