`

利用word分词来对文本进行词频统计

阅读更多

word分词中的 org.apdplat.word.WordFrequencyStatistics​ 类提供了词频统计的功能

命令行脚本的调用方法如下:

将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运行结束后打开文件statistics-result.txt查看词频统计结果

 

在程序中的调用方法如下:

//词频统计设置
WordFrequencyStatistics wordFrequencyStatistics = new WordFrequencyStatistics();
wordFrequencyStatistics.setRemoveStopWord(false);
wordFrequencyStatistics.setResultPath("word-frequency-statistics.txt");
wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore);
//开始分词
wordFrequencyStatistics.seg("明天下雨,结合成分子,明天有关于分子和原子的课程,下雨了也要去听课");
//输出词频统计结果
wordFrequencyStatistics.dump();
//准备文件
Files.write(Paths.get("text-to-seg.txt"), Arrays.asList("word分词是一个Java实现的分布式中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。"));
//清除之前的统计结果
wordFrequencyStatistics.reset();
//对文件进行分词
wordFrequencyStatistics.seg(new File("text-to-seg.txt"), new File("text-seg-result.txt"));
//输出词频统计结果
wordFrequencyStatistics.dump("file-seg-statistics-result.txt");

 

第一句话的词频统计结果:

1、下雨 2
2、明天 2
3、分子 2
4、课程 1
5、听课 1
6、结合 1
7、原子 1
8、去 1
9、成 1
10、关于 1
11、和 1
12、也要 1
13、有 1
14、的 1
15、了 1

 

第二句话的词频统计结果:

1、分词 2
2、的 2
3、基于 1
4、word 1
5、组件 1
6、词典 1
7、ngram 1
8、多种 1
9、实现 1
10、并 1
11、利用 1
12、消除歧义 1
13、中文分词 1
14、算法 1
15、是 1
16、分布式 1
17、了 1
18、提供 1
19、模型 1
20、来 1
21、一个 1
22、Java 1 

 

 

 

 

 

 

1
0
分享到:
评论

相关推荐

    IKAnalyzer 实现分词 词频统计

    为了实现词频统计,我们需要遍历文本,使用Analyzer对每个文档进行分词,然后统计每个词出现的次数。以下是一个简单的词频统计实现: ```java import java.util.HashMap; import java.util.Map; // ... public ...

    python学习文本词频统计hamlet三国演义

    同时,"e101.py"和"e102.py"可能包含了这些步骤,或者采用了其他方法来进行词频统计。在实际项目中,开发者可能会根据需求添加更多特性,如可视化结果、比较不同文本的词频差异等。 总结来说,Python的`collections...

    Python 分词,词频统计,寻找公共词

    在文本分析领域,分词、词频统计以及寻找公共词是常见且重要的任务。通过这些技术,可以更好地理解文本内容,提取关键词,进而应用于搜索引擎优化、情感分析、主题挖掘等多个方面。本文将详细介绍如何使用Python完成...

    文本分类之词频统计(分词、词干提取、去停用词、计算词频,有界面)

    在这个项目中,我们关注的是如何对文本进行预处理,包括分词、词干提取和去除停用词,以及如何计算词频,最终提供一个用户友好的界面来展示结果。以下是对这些知识点的详细解释: 1. **分词**:分词是将连续的文本...

    用Python中的jieba对文章进行词频统计

    在本项目中,我们主要利用Python的jieba库来对《水浒传》这部古典文学作品进行词频统计。jieba是一个强大的中文分词库,它支持多种功能,包括分词、词性标注、关键词提取等,对于文本分析和自然语言处理任务非常有用...

    Q.rar_python统计词频_分词_基于机器学习_词频 _词频统计

    本教程主要涉及使用Python语言进行中文文本的分词和词频统计,并结合机器学习的方法。让我们详细探讨这些知识点。 首先,**Python统计词频**是数据分析的基础步骤之一。Python拥有丰富的库支持这种操作,如`...

    【Python】三国演义词频统计,wordcloud实现

    在本项目中,我们主要探讨如何使用Python进行文本分析,特别是对《三国演义》这部经典文学作品的词频统计和可视化。通过Python编程,我们可以提取文本中的关键信息,了解文本的主题分布,甚至以词云的形式展示这些...

    一段不简单的词频统计代码(含注释)

    在自然语言处理(NLP)领域,词频统计是一项基础且重要的任务,它涉及到对文本数据中的词汇出现次数的计算。这段代码显然提供了一个简单但功能完备的词频统计实现,帮助用户理解文本的主要构成元素。下面我们将深入...

    《Python文本挖掘实战:词频统计高效教程》-计算机科学·Python编程·文本分析·数据预处理

    ### 知识点详解 #### 一、Python文本挖掘与词频统计简介 - **文本挖掘**:指从大量...无论是对于专业数据分析师还是对数据分析感兴趣的初学者来说,《Python文本挖掘实战:词频统计高效教程》都是一份宝贵的资源。

    Python3绘制词云,同时实现 文章分析,分词统计,文本检索,并制作词云

    统计词频则是通过计算每个词在文本中出现的次数,这通常用于识别文本的主题或重点。 3. **文本检索**:文本检索系统能够快速找到与查询词相关的文档或段落。在Python中,可以使用`Whoosh`或`Elasticsearch`等库建立...

    基于Python实现对Word文档的文本分词,词频统计输出,以及绘制词云图.zip

    3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 适用工作项目、毕业设计,课程设计,项目源码均经过助教老师测试,运行无误,轻松复刻,欢迎下载 -------- 下载后...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    Python之词频统计

    以上就是Python进行词频统计的基本流程,结合jieba库处理中文文本,利用nltk处理英文文本,同时考虑后端的数据库交互和API设计,能实现高效、灵活的词频统计系统。在实际应用中,还可以根据需求进行更复杂的数据分析...

    Python英文文章词频统计(14份剑桥真题词频统计).pdf

    在Python编程语言中,进行文本分析和数据挖掘时,词频统计是一项常用的任务。这篇描述的是一个使用Python处理英文文章词频的实例,特别针对14份剑桥真题进行了统计。这个例子展示了如何利用Python的第三方库jieba来...

    使用 Python 进行基本的词频统计

    以下是使用 Python 和一些常用库来实现词频统计的示例代码。 步骤 1: 安装所需的库 首先,确保安装了 nltk 和 collections 这两个库。nltk 用于自然语言处理,collections 中的 Counter 类用于计数。 pip install ...

    Word内查重与词频统计202103-纯C#版本-vs2010编写.rar

    本项目“Word内查重与词频统计202103-纯C#版本”是基于C#编程语言,利用Visual Studio 2010开发环境实现的,旨在为用户提供一种有效检测英文Word文档内部重复内容以及进行词频统计的工具。下面将详细解析其核心知识...

    中文词频统计_lostxv3_中文词频统计_

    总的来说,这个项目的核心是使用NLP技术对中文文本进行词频统计,通过1元和2元模型来分析语言结构和模式。它对于语言研究、信息提取、推荐系统等多个领域都有重要价值。实际应用中,可能还需要考虑其他高级模型,如n...

    分析三国演义和红楼梦,进行中文分词,统计人物出场频次,生成词云图

    在本项目中,我们将探讨如何使用Python来对《三国演义》和《红楼梦》这两部经典文学作品进行中文分词,统计其中人物的出场频次,并最终生成词云图。这个过程涵盖了自然语言处理(NLP)的一些基本技术,特别适合...

Global site tag (gtag.js) - Google Analytics