node.js - 要做中文文本信息抽取,有人给指点下么
PHP中文网
PHP中文网 2017-04-17 11:09:24
[Node.js讨论组]

最近有个项目需要解析中文文本(格式特征较模糊),解析出一些关键的信息和内容入库
我现在用的是nodejs+ICTCLAS(一个分词插件)
可是单单凭一个分词插件,对于一些存在着分歧的词语,感觉有点力不从心。
之前也百度和google了一些资料,都是在讲各种算法(@_@)
不知道大家在做这块东西的时候都是用什么方法做的,希望大家来讨论讨论,或者有一些开源的案例可以分享出来研究研究。

PHP中文网
PHP中文网

认证高级PHP讲师

全部回复(2)
ringa_lee

谢邀。不过很遗憾,像俺这样的菜鸟能把现有的开源分词库用好就不错了,实在没啥更深入的见解。再加上我日常的工作和语料分析沾不上边,所以经验也匮乏。且邀请其他大神来为做精彩回答吧!

我印象里还能想起来的资源是曾经在知乎上看到的类似问题,在答案里有很多干货,分享给你做进一步参考:http://www.zhihu.com/question/19578687

黄舟

简单的中文分词定制类似IKAnalyzer这样的开源库就可以,但是对于要处理歧义,共指,上下文推理之类的需要重量级的框架,可以考虑用斯坦福的GATE NLP框架。

我一直在用GATE进行中文分词标注工作,主要涉及文本过滤清洗,本体识别这些,在GATE中的以PR(语言处理资源)拼装pipeline(管道)进行标注,主要用到
1)Gazetteer词典标注;
2)JAPE标注模式引擎,基于正规表达式编写规则,通过这些规则来进行较准确的命名实体识别;
3)根据业务需要Java编码定制PR对标注结果进行拓扑分析;

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号