`
lfq618
  • 浏览: 88147 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

如何从文件中快速找到出现频率次数最多的用户?

 
阅读更多

目前有一个2G的用户日志文件,服务器内存1G,日志里面每行存着一个用户ID(7-10),怎么最快找出出现过最多次的用户ID?

 

1:先用 split切割成小文件
split -l100000 file newfile
2:遍历切割后的文件
for file in *.log
do
awk '{{a[$2]++}END{for(t in a) print a[t],t}}' file >> coutfile.log
done
awk '{a[$2]+=$1}END{{l=asorti(a,b);for(i=l;i>=1;i--)print b[i],a[b[i]]}' countfile.log
如果coutfile还是大 可以在循环中处理下 让他排重几次

分享到:
评论

相关推荐

    统计字符串中每个字符出现次数并排序工具

    本文将介绍一种专门用于统计字符串中每个字符出现次数并进行排序的工具,它能够帮助用户快速了解一段文本的主要构成元素,找出最频繁出现的字符。 标题中的"统计字符串中每个字符出现次数并排序工具"是一个实用的...

    统计文本文件中一段英文中某个单词出现的次数及其出现的位置

    统计文本文件中一段英文中某个单词出现的次数及其出现的位置 本知识点介绍了一个使用 C++ 编程语言编写的程序,旨在统计给定英文文本文件中某个英文单词的出现次数及其出现的位置。下面是对该程序的详细解释: ...

    从txt文件中读取并统计字符频率

    本篇文章将详细介绍如何使用C/C++在VS6.0中从TXT文件中读取数据,并统计字符的出现频率。 首先,我们需要创建一个新的C或C++项目,在VS6.0中,选择"File" -> "New" -> "Project",然后选择"C++ Console Application...

    统计文件中某字符出现的次数(c++)

    本文将深入探讨如何利用C++来实现一个实用的功能——统计文件中特定字符或字符串的出现次数。这不仅是数据处理和文本分析的基本需求之一,也是提高代码效率和优化资源管理的重要手段。 ### 核心知识点解析 #### 1....

    统计单词在文章中出现频率

    标题 "统计单词在文章中出现频率" 描述的是一个C++编程任务,目的是设计并实现一个程序,能够读取一个包含英文文章的文本文件,分析其中的单词,并统计每个单词出现的次数。最终,程序会将这些信息写入另一个文件,...

    统计指定的文本文件(英文)中,每个单词的出现频率,输出按字典序排列的单词频度表。

    本文将深入探讨如何使用C#语言在Visual Studio 2013环境下,实现统计英文文本文件中每个单词出现频率的功能,并将结果按照字典顺序进行排序,生成单词频度表。 首先,我们需要了解基本的文件操作。在C#中,`System....

    自动统计文本中单词出现最多的单词

    4. 结果展示:找出出现次数最多的单词,可以按照频率降序排列,然后展示前几个最频繁的单词。这有助于理解文本的主题或主要内容。 在实际操作中,我们可能会遇到一些挑战,例如: - 处理停用词:像“的”、“是”...

    js代码-判断一个字符串中出现次数最多的字符,统计这个次数

    // 找到出现次数最多的字符及其频率 let maxCount = 0; let mostFrequentCharWithCount = null; for (const [char, count] of Object.entries(charCount)) { if (count > maxCount) { maxCount = count; ...

    MFC 查找文件中指定字符串

    本程序是一个基于MFC的小项目,旨在教授如何在文件中查找并统计指定字符串的出现情况,包括总个数、行号以及频率。对于初学者来说,这是一个很好的起点,可以帮助理解MFC的基本结构和文件操作。 1. **MFC基础** - ...

    统计单词出现频率代码

    最后的 `while` 循环用于处理用户输入,用户可以输入任意单词,程序会查询该单词在文章中的出现次数,并输出结果。如果单词不存在于文章中,将显示出现次数为 0。 整个程序的实现思路清晰,有效地统计了文件中单词...

    C#统计txt文本中每个汉字出现次数

    本项目专注于使用C#编程语言来实现一个简单的Web程序,其功能是统计一个TXT文本文件中每个汉字出现的次数。这个功能对于理解文本内容、进行语言分析或者数据挖掘都有着重要的作用。下面将详细阐述如何实现这一功能,...

    统计一篇txt文档(英文)中各英文字母出现的次数及概率

    在C++中,`ifstream` 和 `ofstream` 分别用于读取文件和写入文件。示例中的代码通过 `ifstream infile;` 和 `ofstream outfile;` 定义了两个文件流对象。然后使用 `infile.open("text.txt", ios::in);` 和 `outfile....

    Python统计西游记主要人物出场次数(使用jieba分词).zip

    在本项目中,我们利用Python编程语言和jieba分词库来统计《西游记》主要人物的出场次数。这是一个典型的自然语言处理(NLP)任务,涉及到文本处理、中文分词以及数据统计等多个知识点。下面将详细阐述这些关键点。 ...

    各频率的声音(10k - 22k)HZ之间.rar

    标题中的“各频率的声音(10k - 22k)HZ之间.rar”指的是一个包含不同音频频率的压缩文件,范围从10千赫兹(kHz)到22kHz。这个压缩包可能包含了多个音频文件,每个文件代表了一个特定频率的声音。在音频处理和声学...

    C++双向链表统计文章单词出现频率

    在这个特定的项目中,“C++双向链表统计文章单词出现频率”是一个涉及数据结构和算法的应用,目标是实现一个程序来分析文本文件,计算并显示文章中每个单词出现的次数。双向链表作为数据结构的核心,其特点是每个...

    链表实现从文件中读取和统计单词

    本文将详细介绍如何使用链表从文件中读取数据,并统计文件中每个单词出现的频率。本程序的核心在于利用链表来存储单词及其出现次数,通过遍历链表完成对单词的查找与更新操作。 #### 核心概念解析 1. **链表**: 是...

    java排序算法使用及场景说明

    解决方案 1:首先是这一天,并且是访问百度的日志中的 IP 取出来,逐个写入到一个大文件中,然后采用映射的方法,找出每个小文件中出现频率最大的 IP,最后在这 1000 个最大的 IP 中,找出那个频率最大的 IP。...

    java程序设计实现统计英文文献字母出现频率,画直方图

    在本项目中,我们主要探讨的是如何利用Java编程语言来实现对英文文献中字母出现频率的统计,并将结果以直方图的形式展示出来。这个任务涉及到计算机科学中的文本处理、数据统计以及图形可视化等多个关键知识点。 ...

    字词频率统计工具.zip

    此外,统计功能则能够快速计算出每个字词在文本中的出现频率,为用户提供了直观的数据支持。 在实际使用中,"字词频率统计工具"的操作流程通常是这样的:用户导入待分析的文本文件,软件会自动进行分词处理,然后...

    统计英文文本每个字母出现概率(不分大小写)并进行哈夫曼,香农编码

    在本项目中,`CalculateLetters_Number.m`程序会根据字母出现频率生成哈夫曼编码。 **香农编码**则是基于信息熵理论的一种编码方法。信息熵是衡量信息不确定性的一个度量,对于英文文本,可以计算出每个字符的信息...

Global site tag (gtag.js) - Google Analytics