Linux统计单词次数并按次数排序 - fishyych - ITeye博客

`

fishyych

浏览: 429189 次
性别:
来自: 北京

最近访客更多访客>>

anthony

scm002

yj963552657

hot66hot

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

burningblood：最近也遇到了这个细节问题。我用的是4，里面没有 get.rel ...
httpclient的并发连接问题
greatwqs：
使用HttpURLConnection注意设置超时
qinweilh： ...
tomcat报错：standardServer.await: create[8005]:
jayyunfei：还是不很明白
JPA entityManager的管理
a418040445： ...
Calendar

Linux统计单词次数并按次数排序

博客分类：

linux

阅读更多

前提：文件中每一行为一个单词

sort filename | uniq -c| sort -nr

uniq:

-c 输出重复次数

sort:

-n 按照数值比较排序

-r 逆序输出结果

分享到：

ubuntu 12.04云：virtualbox启动的问题 | logrotate完成日志的删除和压缩

2012-04-26 17:19
浏览 1251
评论(0)
分类:操作系统
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

linux数据统计基本命令: - **去除重复项**：`sort -u file` 排序并去除重复行。 - **逆序排序**：`sort -r file` 逆序排序。 - **数字排序**：`sort -n file` 按数字排序。 - 示例： ```bash # 对文件 b.txt 进行逆序数字排序 [root@...

linux文本处理命令: Linux 文本处理命令 Linux 文本处理命令是 Linux ...最后使用 sort 和 uniq 命令来统计每个单词出现的次数，并将结果按降序排序。这些命令和脚本可以用于分析 log 文件、字典列表或文本文件中的词汇出现频率等场景。

Linux环境高级编程实验6: 可以按照单词出现次数降序排序，然后逐行打印。这里可以使用`qsort()`函数进行排序，结合`strcmp()`比较函数来比较单词计数。实验过程中，需要注意错误处理和资源管理。例如，当打开文件失败、内存分配失败或读取...

C语言实现英文文本词频统计: 它首先打开并读取文本文件，然后逐个处理单词并统计词频。接下来，根据用户的选择，决定是否执行排序和打印操作。最后，释放内存资源并结束程序。需要注意的是，虽然这个程序提供了一个基本的词频统计框架，但它...

Linux基础-文字处理命令汇总.docx: 了解并熟练掌握这些命令，对于日常的Linux系统管理和数据分析工作来说至关重要。它们提供了强大的文本处理能力，能够帮助用户高效地处理大量文本数据。同时，还可以结合其他命令如`grep`（搜索特定模式）和`sed`（流...

nginx-log-analysis:用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表: 6. **`sort`** 和 **`uniq`**：对结果排序并去重。如按访问频率降序排列： ``` cut -d ' ' -f 7 /var/log/nginx/access.log | sort | uniq -c | sort -nr ``` 7. **`wc`**：计算行数、单词数、字符数。如统计...

结构设计与实现20161152111李谢然1: 在本项目中，任务是设计并实现一个程序，用于统计指定文件夹内多种类型的文本文件（如 .txt、.cpp 等）的字符数、单词数、行数以及词频，最后将统计结果按指定格式输出到文件中。为了完成这个任务，我们需要关注以下...

Linux提交hadoop任务: 在这个例子中，"CountMapper"可能用于统计文本中每个单词出现的次数。 5. **Reducer**：`CountReducer.java`则是Reducer的实现。Reducer接收来自多个Mapper的键值对，对相同键的数据进行归并和处理，最终输出汇总...

Linux文本处理命令合集: ### Linux文本处理命令合集详解 #### diff/patch：查找/修补文本差异 - **diff** 命令用于比较两个文件之间的不同之处。 - `diff version1.txt version2.txt`：简单地列出两个文件之间的不同行。 - `diff -u ...

tr命令在统计英文单词出现频率中的妙用: `tr` 命令是Linux系统中一个强大的文本转换工具，...这种方法不仅适用于统计单词频率，还可以应用于其他类似的需求，如分析文本数据、清理文本等。希望这个教程能帮助你更好地理解和应用`tr`命令，提高文本处理的效率。

Linux日志分析与视频分享资料: 排序并统计行数** ```bash cat access_log | awk '{print $1}' | sort | uniq -c | sort -rn | wc -l ``` 这一步骤进一步对IP及其出现次数进行降序排列，并计算总的行数。 **5. 显示访问前10位的IP地址** ```bash ...

Linux实验报告四.doc: 在Linux实验报告四中，主要涉及了四个关键知识点：文本文件的编辑与操作、字符串过滤（grep）、文件排序（sort）、删除重复行（uniq）以及文件内容信息统计（wc）。下面我们将详细探讨这些知识点。 1. **文本编辑...

史上最全的 Linux Shell 文本处理工具集锦.doc: `wc`用于统计行数、单词数和字符数，如`wc -l file.txt`统计行数。 ### 10 sed - 流编辑器 `sed`对文本流进行操作，如`sed 's/old/new/g' file.txt`全局替换"old"为"new"。 ### 11 awk - 数据处理 `awk`是一个...

Linux正则表达式: 该命令首先使用`history`获取Shell历史记录，然后通过一系列管道命令（包括`awk`、`sort`、`uniq`和`sort`）统计各个命令的使用频次，最后按频次从高到低排序，有助于分析用户的行为习惯。 #### 结论通过上述实践...

linux常用命令50个学习操作系统必备: - `uniq -c file.txt`: 统计每行出现的次数。 #### 20. `cut` **功能描述**: `cut` 命令用于从每个输入行切割字段。 - **语法**: `cut [选项] [文件]` - **示例**: - `cut -d ":" -f 1 /etc/passwd`: 从 `/etc/...

NOIP2011复赛-普及组试题1: 本题提供了四个不同的编程任务，分别是数字反转、统计单词数、瑞士轮赛制模拟以及计算表达式值。 1. **数字反转**：这个任务要求编写程序读取一个整数N，然后将其各位数字反转。对于负数，反转后依然保持其符号。...

《大数据导论》MapReduce的应用.docx: 1. **Map阶段**：Map函数接收键值对作为输入，通常是对文件的行进行处理，将每一行分割成单词（在这个实验中是通过空格分隔），并将每个单词作为键Text，出现次数作为值IntWritable，写入到中间结果中。 2. **...

太格时代试题_嵌入式-常用知识&面试题库_大厂面试真题.doc: 这个题目要求设计一个结构体来存储从终端输入的单词，并统计每个单词的出现频率。在C或C++中，可以创建一个结构体，包含单词本身和其出现次数两个字段。读取终端输入时，可以使用`fgets()`或`scanf()`函数，然后通过...

Linux 中几个正则表达式的用法: 通过`grep "root"`筛选出以root身份登录的信息，接着使用`awk '{print $11}'`提取出第11列即登录主机的IP地址，`sort`对IP地址进行排序，最后使用`uniq -c`统计每个IP地址出现的次数。 ##### 10. 使用扩展正则...

sed-awk正则表达式: 在统计文件中单词出现次数时，`tr`可以用来删除非单词字符，然后配合`sort`、`uniq`进行处理。例如，`tr –s ' '`可以压缩连续的空格为一个空格，`tr ' ' '\n'`则可以将空格替换为换行符，便于按单词进行处理。 `...

Global site tag (gtag.js) - Google Analytics