`

sort与uniq,wc使用

 
阅读更多

 

 

sort  排序  -u 去除重复的行   -r降序(默认升序)  重定向输入文件 

      -n 按照数字排序 

      -t选项按照什么字符来分割    -k选项:分割后取第几个字段排序 

      -f 忽略大小写 

      -b 忽略前面的空白符,从第一个可见的字符比较 

 

 

测试数据:

    

google 110 5000
baidu 100 5000
guge 50 3000
sohu 100 4500
xiaomi 10 20
huawei 20 33

 

 

数据按照空格分割后取第二列 按照数字升序排列 

sort -n -t ' ' -k 2 b.txt

 

 

uniq 对连续相同的数据去重和统计 (一般先排序在统计,这样相同的就到一起了 )

    uniq命令不加任何参数,仅显示连续重复的行一次

   -c 行首显示本行出现的重复次数

   -d 只显示重复的 

   -u  只显示不重复的行

 

 wc 统计文件中数据:

     -l 统计行数。 

  -L 打印最长行的长度。

 如:下面是对文件fs_sort.txt排序去重后统计重复数据的行数

  cat fs_sort.txt| sort | uniq -d | wc -l

 

查看两个文件相同的行和不同的行的数据:

  

 两个文件中相同的行:
  grep -Ff  222.txt 111.txt

两个文件中不同的行:
     grep -vFf  222.txt 111.txt

 

 

 

 

 

分享到:
评论

相关推荐

    Linux sort,uniq,cut,wc命令详解

    sort  sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出。如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来...  -n :使用『纯数字』进行排序(默认是以文字型态来排序的);  -r 

    Shell 分析日志文件高效命令详解.docx

    这条命令将 log_file 文件中的每一行数据都输出到标准输出,然后使用 sort 和 uniq 命令对输出结果进行排序和去重,最后使用 wc 命令统计输出结果的行数。 2. 查看某一个页面被访问的次数 使用 grep 和 wc 命令...

    linear-counter:线性计数器C ++实现

    该算法不需要存储和排序所有给定的条目,并且具有O(1)的空间复杂度和O(N)的时间复杂度,这比使用| sort | uniq | wc -l更快| sort | uniq | wc -l | sort | uniq | wc -l | sort | uniq | wc -l 。安装在macOS...

    linux常用命令

    tcpdump -i eth0 -tnn dst port 80 -c 1000 | awk -F"." '{print $1"."$2"."$3"."$4}' | sort | uniq -c | sort -nr | head -n 20 ``` - `tcpdump -i eth0`: 指定网卡接口为eth0。 - `-tnn dst port 80`: 捕获目标...

    一个简单的Bash脚本,用于处理Nginx的访问日志,并提取一些基本信息

    这个脚本使用了一些基本的Unix命令,如grep、cut、sort、uniq和wc,来处理和分析日志文件。你可以根据自己的需求修改和扩展这个脚本。 请注意,这个脚本只是一个简单的示例,用于提取一些基本的统计信息。如果你需要...

    Linux下日志统计举例.pdf

    4. **排序并统计行数**:结合`sort`、`uniq`和`wc -l`,可以统计不同IP的数量。如`cat access_log | awk '{print $1}' | sort | uniq -c | sort -m -k1,1 -n -c`。 5. **显示访问前10位的IP地址**:通过`sort`、`...

    在Linux的命令行中实现字符出现频率统计的方法.docx

    接着,使用`sort`进行排序,`uniq -c`计算唯一行的数量,最后`sort -rn`按降序排列,并使用`head`显示前10个最常见的单词。 ``` cat man.txt | tr ' ' '\n' | tr [:upper:] [:lower:] | tr -d [:punct:] | grep -...

    apache网站调优

    5. **统计访问量最大的URL**:使用`cat access_log | grep "20/Oct/2008:00" | awk '{print $8}' | sort | uniq -c | sort -nr | head -n 10`命令来找出当天被请求最多的前10个URL,这对于优化热门资源的处理方式...

    windows上可直接使用的awk、sed、grep等文本处理命令和彩色显示echo命令(from.Cygwin).zip

    包含命令:awk、cat、cut、diff、echo、gawk、grep、head、sed、sort、tac、tail、tr、uniq、wc 可以在windows上cmd窗口显示彩色文字,用法:echo.exe -e "\033[32;1mGREEN\033[0m

    nginx-log-analysis:用于分析 nginx 日志文件的很棒的 linux shell 命令的精选列表

    awk '{print $7}' /var/log/nginx/access.log | sort | uniq -c | sort -rn ``` 3. **`cut`**:提取指定列。若只关心IP和状态码,可使用: ``` cut -d ' ' -f 1,6 /var/log/nginx/access.log ``` 4. **`date`...

    Nginx日志统计分析的常用命令总结

    本文主要给大家总结了关于Nginx日志统计分析...grep 07/Apr/2017:0[4-5] access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l 查看访问最频繁的前100个IP awk '{print $1}' access.log | sort -n |uniq

    Linux日志分析与视频分享资料

    cat access_log | awk '{print $1}' | sort | uniq -c | sort -rn | wc -l ``` 这一步骤进一步对IP及其出现次数进行降序排列,并计算总的行数。 **5. 显示访问前10位的IP地址** ```bash cat access_log | awk '{...

    p431 - p441如何查看PV原语操作

    首先,用`ack`(或`grep`)组合日期和IP地址,然后`sort`和`uniq`去除重复,最后使用`awk`进一步统计每一天的UV次数。 这些命令和技巧是Linux系统中进行日志分析的基础工具,掌握它们能帮助IT从业者有效地监控和...

    通过netstat查看同时连接某个端口的ip数

    4. **去除重复的IP地址并计数**:最后,我们使用`uniq`命令去除重复的IP地址,再使用`sort`进行排序确保`uniq`能正确处理数据,最后使用`wc -l`命令计算剩余的唯一IP地址数量: ```bash netstat -na | grep '192...

    Linux下apache日志分析与状态查看方法

    使用`awk`提取第11列(请求URL),通过`sed`处理URL格式,然后`sort`、`uniq -c`和`sort -rn`操作与之前相同。 ``` awk '{print $11}' apache_log | sed 's/^.*cn/(.*/)/"//1/g' | sort | uniq -c | sort -rn | ...

    第3篇:Web日志分析.pdf

    awk '{print $4,$1}' log_file | grep 21/Jun/2018:14 | awk '{print $2}'| sort | uniq | wc -l ``` - **过滤搜索引擎爬虫的访问**: ```bash awk '{print $12,$1}' log_file | grep ^"Mozilla" | awk '{print ...

    linux下查看物理CPU

    通过`sort`和`uniq`组合使用,可以去除重复的物理ID,最后使用`wc -l`统计行数,从而得出物理CPU的数量。 #### 2. 使用`lscpu`命令 `lscpu`是另一个非常实用的命令,可以直接显示关于CPU架构、型号、频率以及物理...

    est:大量数据的快速基数和TopK估计的Shell程序

    cat file | sort | uniq | wc -l cat file | sort | uniq | wc -l – 获取文件中唯一行数的最简单方法。 但是有一个问题。 即, sort 。 当文件中有数千万,有时甚至数百万行时,排序就变得太昂贵了。 如果您可以用...

    判断CC攻击 netstat命令详解

    查看所有80端口的连接数 代码如下: netstat -nat|grep -i “80″|wc -l 对连接的IP按连接数量进行排序 代码如下: netstat -ntu | awk ‘{print $5}’ | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 ...

Global site tag (gtag.js) - Google Analytics