sort与uniq,wc使用 - 沉默人 - ITeye博客

`

username2

浏览: 753722 次
性别:
来自: 黑龙江

最近访客更多访客>>

dsh_oliver

杭州007

loginboot

xmmdream

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

浮生一如梦： [b][i][u][list] [*][img][url][f ...
字节，字节数组输入输出流ByteArrayInputStream，ByteArrayOutputStream理解
java_frog： httpclient4里才有default
DefaultHttpClient使用
lizhenlzlz： lizhenlzlz 写道HttpHost proxy = n ...
DefaultHttpClient使用
lizhenlzlz： HttpHost proxy = new HttpHost(& ...
DefaultHttpClient使用
kennykinte： methodGet()方法里 HttpPost httpGet ...
DefaultHttpClient使用

sort与uniq,wc使用

博客分类：

linux

阅读更多

sort 排序 -u 去除重复的行 -r降序（默认升序）重定向输入文件

-n 按照数字排序

-t选项按照什么字符来分割 -k选项:分割后取第几个字段排序

-f 忽略大小写

-b 忽略前面的空白符，从第一个可见的字符比较

测试数据：

google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
xiaomi 10 20
huawei 20 33

数据按照空格分割后取第二列按照数字升序排列

sort -n -t ' ' -k 2 b.txt

uniq 对连续相同的数据去重和统计（一般先排序在统计，这样相同的就到一起了）

uniq命令不加任何参数，仅显示连续重复的行一次

-c 行首显示本行出现的重复次数

-d 只显示重复的

-u 只显示不重复的行

wc 统计文件中数据：

-l 统计行数。

-L 打印最长行的长度。

如：下面是对文件fs_sort.txt排序去重后统计重复数据的行数

cat fs_sort.txt| sort | uniq -d | wc -l

查看两个文件相同的行和不同的行的数据：

 两个文件中相同的行：
  grep -Ff  222.txt 111.txt

两个文件中不同的行：
     grep -vFf  222.txt 111.txt

分享到：

数据处理awk命令使用 | Hadoop2.x动态添加或删除datanode

2016-01-29 16:15
浏览 859
评论(0)
分类:操作系统
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Linux sort,uniq,cut,wc命令详解: sort 　sort 命令对 File 参数指定的文件中的行排序，并将结果写到标准输出。如果 File 参数指定多个文件，那么 sort 命令将这些文件连接起来... 　-n ：使用『纯数字』进行排序(默认是以文字型态来排序的)；　-r

Shell 分析日志文件高效命令详解.docx: 这条命令将 log_file 文件中的每一行数据都输出到标准输出，然后使用 sort 和 uniq 命令对输出结果进行排序和去重，最后使用 wc 命令统计输出结果的行数。 2. 查看某一个页面被访问的次数使用 grep 和 wc 命令...

linear-counter:线性计数器C ++实现: 该算法不需要存储和排序所有给定的条目，并且具有O（1）的空间复杂度和O（N）的时间复杂度，这比使用| sort | uniq | wc -l更快| sort | uniq | wc -l | sort | uniq | wc -l | sort | uniq | wc -l 。安装在macOS...

Linux运维常用命令: awk '{print $1}' log_file|sort|uniq|wc -l PS: wc -l 看看有多少行 2、查看某一个页面被访问的次数： grep /index.php log_file | wc -l 3、查看每一个IP访问了多少个页面： awk '{++S[$1]} END {for (a in S)...

linux常用命令: tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr | head -n 20 ``` - `tcpdump -i eth0`: 指定网卡接口为eth0。 - `-tnn dst port 80`: 捕获目标...

一个简单的Bash脚本，用于处理Nginx的访问日志，并提取一些基本信息: 这个脚本使用了一些基本的Unix命令，如grep、cut、sort、uniq和wc，来处理和分析日志文件。你可以根据自己的需求修改和扩展这个脚本。请注意，这个脚本只是一个简单的示例，用于提取一些基本的统计信息。如果你需要...

Linux下日志统计举例.pdf: 4. **排序并统计行数**：结合`sort`、`uniq`和`wc -l`，可以统计不同IP的数量。如`cat access_log | awk '{print $1}' | sort | uniq -c | sort -m -k1,1 -n -c`。 5. **显示访问前10位的IP地址**：通过`sort`、`...

在Linux的命令行中实现字符出现频率统计的方法.docx: 接着，使用`sort`进行排序，`uniq -c`计算唯一行的数量，最后`sort -rn`按降序排列，并使用`head`显示前10个最常见的单词。 ``` cat man.txt | tr ' ' '\n' | tr [:upper:] [:lower:] | tr -d [:punct:] | grep -...

apache网站调优: 5. **统计访问量最大的URL**：使用`cat access_log | grep "20/Oct/2008:00" | awk '{print $8}' | sort | uniq -c | sort -nr | head -n 10`命令来找出当天被请求最多的前10个URL，这对于优化热门资源的处理方式...

windows上可直接使用的awk、sed、grep等文本处理命令和彩色显示echo命令(from.Cygwin).zip: 包含命令：awk、cat、cut、diff、echo、gawk、grep、head、sed、sort、tac、tail、tr、uniq、wc 可以在windows上cmd窗口显示彩色文字，用法：echo.exe -e "\033[32;1mGREEN\033[0m

nginx-log-analysis:用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表: awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -rn ``` 3. **`cut`**：提取指定列。若只关心IP和状态码，可使用： ``` cut -d ' ' -f 1,6 /var/log/nginx/access.log ``` 4. **`date`...

Nginx日志统计分析的常用命令总结: 本文主要给大家总结了关于Nginx日志统计分析...grep 07/Apr/2017:0[4-5] access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l 查看访问最频繁的前100个IP awk '{print $1}' access.log | sort -n |uniq

Linux日志分析与视频分享资料: cat access_log | awk '{print $1}' | sort | uniq -c | sort -rn | wc -l ``` 这一步骤进一步对IP及其出现次数进行降序排列，并计算总的行数。 **5. 显示访问前10位的IP地址** ```bash cat access_log | awk '{...

p431 - p441如何查看PV原语操作: 首先，用`ack`（或`grep`）组合日期和IP地址，然后`sort`和`uniq`去除重复，最后使用`awk`进一步统计每一天的UV次数。这些命令和技巧是Linux系统中进行日志分析的基础工具，掌握它们能帮助IT从业者有效地监控和...

通过netstat查看同时连接某个端口的ip数: 4. **去除重复的IP地址并计数**：最后，我们使用`uniq`命令去除重复的IP地址，再使用`sort`进行排序确保`uniq`能正确处理数据，最后使用`wc -l`命令计算剩余的唯一IP地址数量： ```bash netstat -na | grep '192...

Linux下apache日志分析与状态查看方法: 使用`awk`提取第11列（请求URL），通过`sed`处理URL格式，然后`sort`、`uniq -c`和`sort -rn`操作与之前相同。 ``` awk '{print $11}' apache_log | sed 's/^.*cn/(.*/)/"//1/g' | sort | uniq -c | sort -rn | ...

第3篇：Web日志分析.pdf: awk '{print $4,$1}' log_file | grep 21/Jun/2018:14 | awk '{print $2}'| sort | uniq | wc -l ``` - **过滤搜索引擎爬虫的访问**： ```bash awk '{print $12,$1}' log_file | grep ^"Mozilla" | awk '{print ...

linux下查看物理CPU: 通过`sort`和`uniq`组合使用，可以去除重复的物理ID，最后使用`wc -l`统计行数，从而得出物理CPU的数量。 #### 2. 使用`lscpu`命令 `lscpu`是另一个非常实用的命令，可以直接显示关于CPU架构、型号、频率以及物理...

est:大量数据的快速基数和TopK估计的Shell程序: cat file | sort | uniq | wc -l cat file | sort | uniq | wc -l – 获取文件中唯一行数的最简单方法。但是有一个问题。即， sort 。当文件中有数千万，有时甚至数百万行时，排序就变得太昂贵了。如果您可以用...

Global site tag (gtag.js) - Google Analytics