`
san_yun
  • 浏览: 2654814 次
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

拆分文件统计topN的问题

 
阅读更多

如果对一个只包含ip地址文件进行统计,需要求出频率最高的前10个IP地址应该如何处理?文件2G,内存128MB。

解决办法:先拆分文件统计,然后再合并?

但如何处理如下的问题呢?

 

对于A,B两组机器,如果取top3,貌似A1,A2,A3就是。但如何避免A6和B6是同一个IP,如果相加会超过A1。其实答案应该是A6,A1,A2。

  1 2 3 4 5 6
A 3000 2999 2998 2997 2996 2995
B 1000 999 998 997 996 995

 

 

解决办法:

通过hash(ip)%2来避免同一个ip落在不同的机器上。

分享到:
评论

相关推荐

    Hadoop hdfs文件操作,mr demo,topN demo

    本篇文章将详细讲解Hadoop HDFS文件操作、MapReduce(MR)示例以及如何实现TopN问题。 首先,HDFS是分布式文件系统,设计用于跨大量廉价硬件节点存储和处理大规模数据。它具有高容错性,能够自动数据复制,确保数据...

    (源码)基于Python的URL计数与TopN提取系统.zip

    # 基于Python的URL计数与TopN提取系统 ## 项目简介 本项目旨在解决从100GB的URL数据中统计出出现次数最多的Top 100 URL的问题。由于内存限制仅为1GB,项目采用了高效的分布式处理和优化策略,确保在有限的资源下...

    常见:数据分析师常见的10道面试题解答 1

    接着,对每个小文件统计词频,使用最小堆存储每个文件的前100个词,最后进行文件间的合并排序。 4. 对10个G大小的文件按query频度排序 - 方案1:使用哈希函数将query分散到新的文件中,然后在内存充足的机器上统计...

    datasource.zip

    其次,`topn`文件可能涉及到Top N问题,这是MapReduce中常见的应用场景。例如,找出访问量最高的N个网页,购物网站上销量最好的N个商品等。Map阶段的任务是将数据拆分为(key, value)对,key是元素本身,value是...

    海量数据处理:十道面试题与十个海量数据处理方法总结

    - 在Top-K问题中非常有用,可以高效地找到前K个最大或最小的元素。 4. **Trie树/前缀树**: - 一种树形数据结构,特别适合于字符串的搜索和排序。 - 可以有效地统计词频或查询串的出现次数。 5. **外部排序**: ...

    十道海量数据处理面试题与十个方法大总结 面试必备

    - 如果某个小文件仍然超过1MB,则继续拆分,直至每个文件的大小均在1MB以内。 - 对每个小文件,使用哈希表或Trie树统计词的频率,并使用最小堆找出频率最高的100个词。 - 最后,将这5000个文件进行归并排序。 **4. ...

    hdp-day03-05笔记

    - 案例3:全局求Topn,所有reduce共享一个全局的Topn列表,map阶段只计数,reduce阶段根据总数选择Topn。 在MapReduce编程中,要注意以下几点: - 每个reduce任务在处理完所有数据后会调用一次cleanup方法。 - ...

    Microsoft SQL Server 2008技术内幕:T-SQL查询(第二卷)

    9.3.1 每组中的TOP n 9.3.2 匹配当前值和前一个值 9.3.3 分页 9.4 逻辑转换 9.5 总结 第10章 数据修改 10.1 插入数据 10.1.1 增强的VALUES子句 10.1.2 SELECT INTO 10.1.3 BULK行集提供程序 10.1.4 按最小...

    SQLServer2008技术内幕T-SQL查询包含源代码及附录A

    9.3.1 每组中的TOP n408 9.3.2 匹配当前值和前一个值413 9.3.3 分页416 9.4 逻辑转换422 9.5 总结424 第10章 数据修改425 10.1 插入数据425 10.1.1 增强的VALUES子句425 10.1.2 SELECT INTO426 10.1.3 BULK行集提供...

    MapReduce的Wordcount求top

    在MapReduce框架中,`Wordcount`是一个经典的例子,用于统计文本中各个单词出现的频率。而这里的"MapReduce的Wordcount求top"是对其的一个扩展,目的是找出出现频率最高的若干个单词。以下是对这个任务的详细解释: ...

    Microsoft+SQL+Server+2008技术内幕:T-SQL查询_源代码及附录 中文版

    9.3.1 每组中的TOP n408 9.3.2 匹配当前值和前一个值413 9.3.3 分页416 9.4 逻辑转换422 9.5 总结424 第10章 数据修改425 10.1 插入数据425 10.1.1 增强的VALUES子句425 10.1.2 SELECT INTO426 10.1.3 BULK...

    C#编程经验技巧宝典

    54 <br>0075 用回溯法找出n个自然数中取r个数的全排列 55 <br>0076 约瑟夫环问题 56 <br>0077 猴子选大王 57 <br>0078 如何判断IP是否正确 57 <br>0079 如何将小写金额转换为大写金额 57...

Global site tag (gtag.js) - Google Analytics