首页 >后端开发 >Python教程 > 正文

python统计单词出现次数

原创2020-02-13 11:09:1202356

python统计单词出现次数

做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。

下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。

# -*- coding:utf-8 -*-
import io
import re

class Counter:
    def __init__(self, path):
        """
        :param path: 文件路径
        """
        self.mapping = dict()
        with io.open(path, encoding="utf-8") as f:
            data = f.read()
            words = [s.lower() for s in re.findall("\w+", data)]
            for word in words:
                self.mapping[word] = self.mapping.get(word, 0) + 1

    def most_common(self, n):
        assert n > 0, "n should be large than 0"
        return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]

if __name__ == '__main__':
    most_common_5 = Counter("importthis.txt").most_common(5)
    for item in most_common_5:
        print(item)

执行效果:

('is', 10)
('better', 8)
('than', 8)
('the', 6)
('to', 5)

更多python教程,推荐学习:Python视频教程

以上就是python统计单词出现次数的详细内容,更多请关注php中文网其它相关文章!

php中文网最新课程二维码
  • 相关标签:python 统计单词
  • 本文原创发布php中文网,转载请注明出处,感谢您的尊重!
  • 相关文章

    相关视频


    网友评论

    文明上网理性发言,请遵守 新闻评论服务协议

    我要评论
  • 本文为大家介绍了js实字符并去重的方法,具有一定的参考价值,希望可以帮助到大家。
    c语言字符串中每个字符的方法:首先下载安装winTC并打开;然后快捷键【ctrl+N】新建文件,并输入代码;最后保存文件,并输入要的字符串后按enter键即可。
    js字符串中每个字符的方法:1、将字符串转为小写,代码为【ary1=ary.toLocaleLowerCase()】;2、对象中有这个字母【obj[key]++】;3、对象中没有这个字母,把字母加到对象中
    python中可以使用“count()”函字符串里某个字符,该函用于,其语法是“count(sub, start= 0,end=len(string))”,其参sub表示搜索的子字符串
    python中count函用于字符串里某个字符,语法为str.count("char",start,end)。
    ​方法:首先打开excel表格;接着点击据旁的元格,输入“=countif(选择区域,“名字”)”;然后按回车键就可以得到名字了。
    用C语言实的方法:首先使用gets获取输入;然后在for循环中,对个字符进行判断,若是空格则说明结束,+1;最后循环完所有的字符即可得到
    python中count函用于字符串里某个字符,“count”函的语法为“str.count(sub, start= 0,end=len(string))”,其中参“sub”表示搜索的子字符串
    python中可以使用count()方法来字符个,count()的语法是“str.count(sub, start= 0,end=len(string))”,该方法返回子字符串在字符串中
    python字符串中字母个的方法:首先从键盘随机输入一段字符串;然后循环遍历字符串,通过循环字符串中的每一个字符;最后各类字符即可。
    php中的array_count_values函的用法:【array_count_values(array)】。该函用于组中所有值,并返回元素与元素组成的组。
    excel高频的方法:首先选中据区域,点击“开始”选项卡下的“条件格式”;然后点击“突显示元格规则”下的“重复值”规则;最后将重复的据以红色突显示并即可。
    excel字的方法:首先打开表格,并选择工作据;然后选中需要元格,并输入公式【=LEN(E2】;最后回车后字,并下拉填充元格即可。
    Python中使用print函,可以在输内容中加入“\n”换行符,实换行输,“\n”是一种算机语言表达方式,其作用是跳到新的一行,如果在Windows系中换行,需要在“\n”结尾加上“\r
    PHP判断字符串是不是包含指定字符的方法:1、使用strstr函;2、使用strpos函;3、使用explode函;4、使用【substr_count】函通过“指定字符”在“原始字符串中
    Excel列求和的方法:1、选中列,excel右下角会求和等信息;2、选中列,点击菜中的自动求和,求和结果会在据下面展示;3、使用sum()函求和。
    电子表格筛选的操作方法:首先选中据,并在工具菜中找到据,选择“筛选”;然后查看升序、降序和颜色排序等功能;接着选择需要据文本;最后在弹的对话框中,输入想要不包含的关键,并选择点击“等于

    专题推荐

    推荐视频教程
  • 零基础入门Python项目实战零基础入门Python项目实战
  • Python+人工智能全栈工程师(Linux基础篇)Python+人工智能全栈工程师(Linux基础篇)
  • 2019python自学视频2019python自学视频
  • 视频教程分类