`

Python学习(二):统计词频

阅读更多

为了学习Python,最好还是直接从写代码入手,解决的问题如下:

统计英文文章的词频,并按词频从大到小输出。

设计Python知识点:文件操作、with ... as ...语句、字典数据结构、字典排序、字符串正则替换

代码如下:

#coding=utf-8
'''
Created on 2015年8月15日
统计一篇英文文章各个单词出现的词频,并按单次的词频从大到小输出
@author: minmin
'''
import re
import collections

'''
从文件中读取内容,统计词频
'''
def count_word(path):
    result = {}
    with open(path) as file_obj:
        all_the_text = file_obj.read()
        #大写转小写
        all_the_text = all_the_text.lower()
        #正则表达式替换特殊字符
        all_the_text = re.sub("\"|,|\.", "", all_the_text)
        
        for word in all_the_text.split():
            if word not in result:
                result[word] = 0
            result[word] += 1 
            
        return result
    

'''
以词频倒序
'''
def sort_by_count(d):
    #字典排序
    d = collections.OrderedDict(sorted(d.items(), key = lambda t: -t[1]))
    return d

if __name__ == '__main__':
    file_name = "..\my father.txt"

    dword = count_word(file_name)
    dword = sort_by_count(dword)
    
    for key,value in dword.items():
        print key + ":%d" % value

 

输出结果:

        

 

 代码我也放到GitHub上面了

 

 

  • 大小: 4.9 KB
0
1
分享到:
评论

相关推荐

    python学习文本词频统计hamlet三国演义

    首先,我们可以使用`collections.Counter`来统计词频。打开"hamlet.txt"和"三国演义.txt",逐行读取文本,然后对每行进行分词。Python的`str.split()`方法可以将字符串分割成单词列表。例如: ```python from ...

    《Python文本挖掘实战:词频统计高效教程》-计算机科学·Python编程·文本分析·数据预处理

    #### 二、Python基础知识与词频统计相关模块介绍 - **Python**:一种广泛应用于数据科学领域的高级编程语言,因其语法简洁清晰、强大的第三方库支持而受到开发者们的青睐。 - **正则表达式(Regular Expression)**...

    基于python的三国演义词频分析

    在本项目中,我们探索了如何使用Python进行文本分析,特别是对《三国演义》这部经典文学作品的词频分析。这项任务旨在揭示文本中的高频词汇,从而深入了解作品的主题、人物和情节。以下是对这个项目及其相关知识点的...

    60309,《Python数据科学:技术详解与商业实践》源代码

    9. **文本分析**:如果书中涉及自然语言处理,源代码可能包含NLTK或Spacy库的使用,进行词频统计、情感分析或主题建模等。 10. **Web数据抓取与API接口**:可能包含使用BeautifulSoup、Scrapy或requests库从网页...

    【Python】三国演义词频统计,wordcloud实现

    通过以上步骤,我们可以完成《三国演义》的词频统计和词云制作,不仅学习了Python的文本处理技术,也加深了对这部历史小说的理解。这种分析方法同样适用于其他大量文本数据,如新闻报道、社交媒体数据等,是数据科学...

    Python教学中实用型词频统计案例展示.pdf

    为了提高Python教学的实用性和吸引力,文章提出了“Python实用型案例教学”的观点,并针对词频统计问题给出了具体的案例。这些案例包括大学英语四、六级考试高频词的求解和可视化展示,以及古诗字频统计和可视化展示...

    基于 python 实现英文文章的词频统计, 并画出词频图

    【作品名称】:基于 python 实现英文文章的词频统计, 并画出词频图 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:...

    Q.rar_python统计词频_分词_基于机器学习_词频 _词频统计

    首先,**Python统计词频**是数据分析的基础步骤之一。Python拥有丰富的库支持这种操作,如`collections.Counter`,它可以帮助我们轻松地计算文本中每个单词出现的次数,进而分析文本的结构和主题。在处理中文文本时...

    Python实现的统计词频小工具

    综上所述,"Python实现的统计词频小工具"涉及了Python的基础语法、数据结构、文本处理、文件操作和模块化编程等多个方面,是学习和实践Python的好项目。在实际应用中,可以根据需求扩展功能,例如添加多文件处理、...

    Python实战教程:数据分析

    通过学习这个教程,他们可以掌握如何利用Python进行微信数据的收集、处理和可视化。在实际操作中,开发者需要确保已安装所有必要的第三方库,通过`pip install`命令可以轻松完成安装。对于每个库的具体用法,建议...

    如何用python统计英语文章词频?

    统计单词词频,能够按照单词次数排列,统计英语高频词。可用于自我学习,对于想快速提升英语的可以快速把握所有高频词。打蛇打七寸,把握关键点。也可用于培训机构,针对考试高频词,快速提分,

    Python编写的词频统计工具

    对于初学者,理解并编写这样的词频统计工具是学习Python和NLP的好方法。对于专业人士,这样的工具则可以作为数据预处理和文本分析的起点,为进一步的文本挖掘和机器学习任务奠定基础。通过掌握Python的这些基础知识...

    Python项目-自动办公-19 用Python分析文本数据的词频.zip

    在本项目"Python项目-自动办公-19 用Python分析文本数据的词频.zip"中,我们将探讨如何使用Python进行文本数据的词频分析,这是数据科学领域中常见的任务,尤其在自然语言处理(NLP)中。下面将详细介绍涉及的知识点...

    Python程序设计:Python字符串(案例).pptx

    在上述的"三国演义 词频统计"案例中,我们学习了如何利用Python来实现对特定字符串的计数和定位。 首先,我们需要理解字符串在Python中的基本操作。字符串是不可变的序列,可以通过索引来访问其中的每个字符。在...

    Python源码-用Python分析文本数据的词频

    在Python编程语言中,分析文本数据的词频是一项常见的任务,尤其在自然语言处理...通过理解并应用上述步骤,我们可以有效地利用Python进行文本数据的词频分析,为后续的深度学习模型训练或统计分析提供有价值的信息。

    上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

    程序可以逐个读取年报文件(如txt文件),对每个文件进行分词,统计词频,并最终合并所有年报的数据。在实际操作中,我们还需要考虑去除停用词(如“的”、“和”等常见但不具特殊含义的词)以提高分析的准确性。 ...

    基于python实现小说词频统计附项目源码分享

    Python 语言简单针对深度学习的算法,以及独特的深度学习框架,将在人工智能领域编程语言中占重要地位。 Python 是一种代表简单主义思想的语言。吉多·罗萨姆对 Python 的定位是“优雅,明确,简单”。Python 拒绝了...

    详解Python用三种方式统计词频的方法

    在Python编程中,统计词频是一个常见的需求,尤其是在文本处理和数据分析领域。本文将详细介绍三种使用Python统计词频的方法。这三种方法分别是使用Python内置的字典(dict)、使用collections模块中的defaultdict,...

    词频统计(基于hadoop集群,python实现)

    3. **提交作业**:使用Hadoop的`hadoop jar`命令提交Python MapReduce作业,指定输入文件(需要统计词频的文本文件)和输出目录。 4. **查看结果**:一旦作业完成,你可以在指定的输出目录下找到结果文件,里面包含...

    基于Python的小说词频统计.zip

    《基于Python的小说词频统计》是一份专为计算机科学领域的毕业设计或课程设计而准备的资源包。这个压缩文件包含了一系列用Python编写的源代码,用于统计小说文本中的词频,帮助用户深入理解文本内容并进行数据分析。...

Global site tag (gtag.js) - Google Analytics