使用StringTokenizer统计文本行单词个数 - The Best or Nothing! - ITeye博客

`

chenwq

浏览: 568315 次
性别:
来自: 济南

最近访客更多访客>>

thtf2001

u012363178

jiumoji

song0394

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

brandNewUser：楼主你好，问个问题，为什么我写的如下的：JobConf pha ...
Hadoop ChainMap
Molisa： Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数
Molisa： mapred.min.split.size指的是block数， ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数
heyongcs：请问导入之后，那些错误怎么解决？
Eclipse导入Mahout
a420144030：看了你的文章深受启发，想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析

使用StringTokenizer统计文本行单词个数

博客分类：

J2SE

阅读更多

StringTokenizer strToke = new StringTokenizer(yourString, " ");
int size = strToke.countTokens();// 获取yourString的单词个数
System.out.println("strToke count = " + size);
// 打印所有单词
while (strToke.hasMoreElements()) {
      System.out.print(strToke.nextToken() + " ");
}

0
顶

0
踩

分享到：

学习笔记——最小二乘法 | Java时间戳计算代码执行时间

2011-10-24 16:36
浏览 1070
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

字符串分析，分别输出字符串中个单词，并统计出单词个数: ### 字符串分析，分别输出字符串中各单词，并统计出单词个数 #### 知识点解析在Java编程语言中，对字符串进行分析是一项基本且重要的任务。本篇文章将详细解析如何通过Java代码实现字符串的分割以及统计其中单词...

各单词数统计，经典例子: 本项目名为"各单词数统计，经典例子"，显然它是一个用于统计文章中每个单词出现频率的程序，这对于理解、分析和处理大量文本数据非常有帮助。下面将详细介绍这个程序可能涉及的知识点和相关技术。首先，我们需要...

Java程序编写的Hadoop实现统计文件中单词出现的频率和根据天气年历，通过自定义排序/自定义分区/自定义分组，实现获取天气相关的统计信息: 在map方法中，程序读取每一行文本，并使用Java的StringTokenizer或者正则表达式来分割单词，然后输出键值对。Reduce阶段则需要继承Reducer类，并实现其reduce方法。Reduce方法接收相同key的所有值，将它们相加得到...

java识别一篇文章中某单词出现个数的方法: 使用`while(st.hasMoreTokens())`循环遍历`StringTokenizer`生成的每个单词，然后用`string.equals("if")`判断当前单词是否为目标单词（这里是"if"），如果是，则`num++`，统计出现次数。 5. **正则表达式与`...

HADOOP实验一1: 1. MapReduce 程序编写：实验中编写了一个 WordCount 的 MapReduce 程序，其中 Map 函数使用 StringTokenizer 对输入文本进行分词，并将每个单词作为 Key 发送到 Reduce 阶段。Reduce 函数则对相同 Key 的 Value ...

数据存储实验5-编写MapReduce程序实现词频统计.doc（实验报告）: 1. 在Mapper中，我们使用StringTokenizer将输入数据分割成单词，并输出每个单词和其出现次数。 2. 在Reducer中，我们将中间结果合并，并输出每个单词的总出现次数。以下是MapReduce程序的代码： ```java package ...

MapReduce字数统计案例: 在本案例中，Map函数将读取文本文件的每一行，然后将每一行拆分成单词，形成键值对（, 1>）。接着，Reduce阶段负责聚合Map阶段产生的中间结果。Reducer接收到相同键的值列表，对这些值进行汇总，比如求和。在字数...

WordCount:此代码使用Java在文本文件中查找重复的单词: WordCount是大数据处理领域中的一个经典示例，它主要用于统计文本文件中各个单词出现的次数。这个例子在Java中实现，展示了如何利用MapReduce编程模型处理大规模数据。MapReduce是一种分布式计算模型，由Google提出...

基于马尔可夫链的文章生成器（java）: 这里使用`StringTokenizer`类对输入字符串进行分词，然后将每个单词添加到列表`listtemp`中。这种处理方式适用于简单的文本数据。 ### 构建马尔可夫链模型构建马尔可夫链模型的关键在于统计各个单词之间的关联性...

Java操作Hadoop Mapreduce基本实践源码: 这段代码展示了如何创建一个统计文本中单词出现次数的MapReduce程序。`TokenizerMapper`将文本分割成单词，并为每个单词生成一个键值对，键是单词，值是1。`IntSumReducer`则将所有相同的单词键对应的1求和，得到...

hadoop1.2.1修改WordCount并编译: Hadoop 是一种基于分布式处理的大数据处理框架，其中 WordCount 程序是一个经典的示例程序，用于统计文本文件中的词频信息。在 Hadoop 1.2.1 版本下，我们可以修改 WordCount 程序以便在控制台输出结果。在 ...

hadoop wordcount: 程序通过`StringTokenizer`将每一行分解为单词，并将每个单词与计数值1配对，形成<单词, 1>的键值对，然后将这些对传递给`OutputCollector`。`OutputCollector`负责收集Mapper和Reducer的输出，确保数据在分布式环境...

MapReduce之wordcount范例代码: WordCount是MapReduce中的一个经典示例，它用于统计文本中各个单词出现的次数，简单明了地展示了MapReduce的核心理念和工作流程。在Hadoop环境中，MapReduce通过两个主要阶段来完成任务：Map阶段和Reduce阶段。...

TextPrediction:使用ngram模型的文本预测: 文本预测是一种常见的自然语言处理任务，它涉及到根据输入的前几个单词或字符预测下一个可能出现的单词或字符。在这个场景中，我们关注的是使用n-gram模型来实现这一功能，尤其在Java环境下。n-gram模型是统计语言...

英文文本分词jar包与代码: 对于英文分词，Java中的`java.util.StringTokenizer`类是一个基础工具，但功能较为简单。更强大的库如Stanford NLP、OpenNLP等，提供了更全面的NLP功能，包括分词、词性标注、命名实体识别等。 2. **Stanford NLP**...

Hadoop数据处理框架MapReduce原理及开发: Word Count是一个非常典型的MapReduce应用实例，它的目的是统计文本文件中每个单词出现的次数。 - **Mapper**：Mapper负责读取输入的文本行，并将每行文本分割成单词。对于每个单词，Mapper会产生一个键值对(key-...

WordCount工具: WordCount工具是Apache Hadoop生态系统中的一个经典示例程序，用于统计文本文件中各个单词出现的频率。在大数据处理领域，Hadoop是一个广泛使用的开源框架，它提供了分布式存储（HDFS）和分布式计算（MapReduce）的...

MapReduce之Wordcount实现: WordCount是MapReduce编程的经典入门案例，用于统计文本数据中每个单词出现的次数。下面我们将详细阐述如何使用Java语言在Hadoop框架中实现WordCount程序。首先，理解MapReduce的两个主要处理阶段：Map阶段和...

Global site tag (gtag.js) - Google Analytics