javascript - 多国语言如何用正则表达式匹配?
巴扎黑
巴扎黑 2017-04-10 16:45:49
[JavaScript讨论组]

にほんご Português 中文繁体1.0

巴扎黑
巴扎黑

全部回复(3)
巴扎黑
  • 首先查询你想要匹配语言的Unicode值域

  • 比如,你想要匹配的是简体中文,它的值域为4E00到9F45间

demo = /[\u4E00-\u9F45]/g
demo.test("测试") // print true
demo.test("test") // print false
  • 这里是一个关于js正则表达式的中文文档

ringa_lee

举个中文的例子:
匹配中文的正则一般为:/[\u4e00-\u9fa5]+/,其中4e00到9fa5就是中文的范围(其实中文的范围不止这么大,还有CJK范围的)。

eg:

/[\u4e00-\u9fa5]+/.test('中') === true

所以你只要找到你需要的语言的unicode范围,写个向上面的正则表达式就OK了。

巴扎黑

东亚文字的unicode范围有大量重叠, 所以你没法在unicode这一层(简单又精确地)匹配自然语言, 得上language model之类东西.

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号