扫码关注官方订阅号
闭关修行中......
由于简体和繁体并不是单纯转换文字就能用的(繁体和简体的用词,语义很多都不同,只能人工做i18n)比如 chs - cht硬盘 - 硬碟内存 - 記憶體这些并不能直接通过转换繁简体来完成,需要有一个繁简分歧词表分歧词表参考 : 维基百科 - 繁简分歧词表
方案:1.建立双库。2-1. 针对已有内容:读取简体库内容,通过下方py开源库转换为繁体,存入繁体库。2-2. 针对后期内容:在存入简体库的时候加一个繁体转换,存入繁体库。
一个汉语言处理开源库,提供了汉语分词和繁体简体转换(包括上述的分歧词)希望有所帮助
https://github.com/Tony-Wang/YaYaNLP (python,修改自下方java库)
https://github.com/hankcs/HanLP (java)
@vimac word的转换一来效率低,二来分歧词(也就是你说的用词差异)处理率很低。不能实现自动化操作。
一个土办法,不知道是否可行
导出你的简体中文内容的SQL(或者CSV等等,只要是文本形式的)
用Word的简繁转换转换为繁体,Word的简繁转换是考虑了用词差异的(例如鼠标 => 滑鼠)
导回去(当然记得改库名表名)
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
由于简体和繁体并不是单纯转换文字就能用的(繁体和简体的用词,语义很多都不同,只能人工做i18n)
比如
chs - cht
硬盘 - 硬碟
内存 - 記憶體
这些并不能直接通过转换繁简体来完成,需要有一个繁简分歧词表
分歧词表参考 : 维基百科 - 繁简分歧词表
方案:
1.建立双库。
2-1. 针对已有内容:读取简体库内容,通过下方py开源库转换为繁体,存入繁体库。
2-2. 针对后期内容:在存入简体库的时候加一个繁体转换,存入繁体库。
一个汉语言处理开源库,提供了汉语分词和繁体简体转换(包括上述的分歧词)希望有所帮助
https://github.com/Tony-Wang/YaYaNLP (python,修改自下方java库)
https://github.com/hankcs/HanLP (java)
@vimac
word的转换一来效率低,二来分歧词(也就是你说的用词差异)处理率很低。不能实现自动化操作。
一个土办法,不知道是否可行
导出你的简体中文内容的SQL(或者CSV等等,只要是文本形式的)
用Word的简繁转换转换为繁体,Word的简繁转换是考虑了用词差异的(例如鼠标 => 滑鼠)
导回去(当然记得改库名表名)