搜索
python - 如何统计一份英文 API 开发文档(如 javadoc文档)的词频?
迷茫
迷茫 2017-07-05 10:35:00
[Python讨论组]

如题,简单一点的功能是如何对一份英文 API 开发文档进行词频的统计?(文档可能是多个 html 文件,也可能是 chm 文件,不是简单的 txt 文本);

复杂一点的需求是,因为开发文档涉及很多类名、函数或方法名等,单词可能会连在一起,统计时最好能够分开(这个可以根据命名规则来分开)

再复杂一点的需求是,因为单纯统计一个文档的词频没多大的实际意义,如何将统计后的单词再加工处理:

  • 剔除掉一些简单的,并对开发来说没多大意义的单词,如 the, are, to, is……

  • 分析出里面涉及到计算机的专业名词、编程中特定含义的单词或编程语言的关键字(涉及到文档对应的不同语言);

  • 对最终分析出的单词标注出解释(中文,可以通过第三方 API)……

如果开发具有以上功能的软件,具体需要涉及哪些技术? 欢迎提供你的想法……

呃,其实我的痛点是,看一份英文文档时,有太多不懂的单词,经常要去查单词,效率太低了,如果有一个工具可以统计分析出一份文档的词汇,就可以在看文档前先大致熟悉词汇的意思,提高效率;而且对于开发时,命名也有帮助……

修改备注:

  • 分开连在一起的单词确实不是分词技术,之前说错了;

  • 原问题提到的运用机器学习,我的想法是这样的:一个具有机器学习的软件大量阅读编程的开发文档,找出里面的专业术语,使整个功能的实现更加智能化……当然这是我瞎想的,不一定对,不喜勿喷;

  • 最后,我提到的看英文文档的问题,谁都有刚开始看不懂,效率低的阶段,谁不知道多看,效率就会慢慢提高?道理大家都懂……但是,这个不是我们讨论的重点,我只是有这么个想法,提出来让大家讨论下而已

另外,提的问题如果有错,可以留言,我会修改,能不踩吗?

迷茫
迷茫

业精于勤,荒于嬉;行成于思,毁于随。

全部回复(2)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板