拆分文件统计topN的问题 - san_yun - ITeye博客

`

san_yun

浏览: 2693699 次
来自: 杭州

最近访客更多访客>>

空城旧梦why

sd3870181

alexqdjay

hanmiao

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

siphlina：课程——基于Python数据分析与机器学习案例实战教程分享网盘 ...
Python机器学习库
san_yun： leibnitz 写道hi,我想知道,无论在92还是94版本, ...
hbase的行锁与多版本并发控制(MVCC)
leibnitz： hi,我想知道,无论在92还是94版本,更新时(如Puts)都 ...
hbase的行锁与多版本并发控制(MVCC)
107x：不错，谢谢！
Latent Semantic Analysis(LSA/ LSI)算法简介
107x：不错，谢谢！
Python机器学习库

拆分文件统计topN的问题

博客分类：

算法

阅读更多

如果对一个只包含ip地址文件进行统计，需要求出频率最高的前10个IP地址应该如何处理？文件2G，内存128MB。

解决办法：先拆分文件统计，然后再合并？

但如何处理如下的问题呢？

对于A，B两组机器，如果取top3，貌似A1，A2，A3就是。但如何避免A6和B6是同一个IP，如果相加会超过A1。其实答案应该是A6，A1，A2。

	1	2	3	4	5	6
A	3000	2999	2998	2997	2996	2995
B	1000	999	998	997	996	995

解决办法：

通过hash(ip)%2来避免同一个ip落在不同的机器上。

分享到：

查看网络的脚本 | hbase example code

2014-01-20 18:48
浏览 1081
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop hdfs文件操作，mr demo,topN demo: 本篇文章将详细讲解Hadoop HDFS文件操作、MapReduce（MR）示例以及如何实现TopN问题。首先，HDFS是分布式文件系统，设计用于跨大量廉价硬件节点存储和处理大规模数据。它具有高容错性，能够自动数据复制，确保数据...

(源码)基于Python的URL计数与TopN提取系统.zip: # 基于Python的URL计数与TopN提取系统 ## 项目简介本项目旨在解决从100GB的URL数据中统计出出现次数最多的Top 100 URL的问题。由于内存限制仅为1GB，项目采用了高效的分布式处理和优化策略，确保在有限的资源下...

常见：数据分析师常见的10道面试题解答 1: 接着，对每个小文件统计词频，使用最小堆存储每个文件的前100个词，最后进行文件间的合并排序。 4. 对10个G大小的文件按query频度排序 - 方案1：使用哈希函数将query分散到新的文件中，然后在内存充足的机器上统计...

datasource.zip: 其次，`topn`文件可能涉及到Top N问题，这是MapReduce中常见的应用场景。例如，找出访问量最高的N个网页，购物网站上销量最好的N个商品等。Map阶段的任务是将数据拆分为（key, value）对，key是元素本身，value是...

海量数据处理：十道面试题与十个海量数据处理方法总结: - 在Top-K问题中非常有用，可以高效地找到前K个最大或最小的元素。 4. **Trie树/前缀树**: - 一种树形数据结构，特别适合于字符串的搜索和排序。 - 可以有效地统计词频或查询串的出现次数。 5. **外部排序**: ...

十道海量数据处理面试题与十个方法大总结面试必备: - 如果某个小文件仍然超过1MB，则继续拆分，直至每个文件的大小均在1MB以内。 - 对每个小文件，使用哈希表或Trie树统计词的频率，并使用最小堆找出频率最高的100个词。 - 最后，将这5000个文件进行归并排序。 **4. ...

hdp-day03-05笔记: - 案例3：全局求Topn，所有reduce共享一个全局的Topn列表，map阶段只计数，reduce阶段根据总数选择Topn。在MapReduce编程中，要注意以下几点： - 每个reduce任务在处理完所有数据后会调用一次cleanup方法。 - ...

Microsoft SQL Server 2008技术内幕：T-SQL查询(第二卷): 9.3.1 每组中的TOP n 9.3.2 匹配当前值和前一个值 9.3.3 分页 9.4 逻辑转换 9.5 总结第10章数据修改 10.1 插入数据 10.1.1 增强的VALUES子句 10.1.2 SELECT INTO 10.1.3 BULK行集提供程序 10.1.4 按最小...

SQLServer2008技术内幕T-SQL查询包含源代码及附录A: 9.3.1 每组中的TOP n408 9.3.2 匹配当前值和前一个值413 9.3.3 分页416 9.4 逻辑转换422 9.5 总结424 第10章数据修改425 10.1 插入数据425 10.1.1 增强的VALUES子句425 10.1.2 SELECT INTO426 10.1.3 BULK行集提供...

MapReduce的Wordcount求top: 在MapReduce框架中，`Wordcount`是一个经典的例子，用于统计文本中各个单词出现的频率。而这里的"MapReduce的Wordcount求top"是对其的一个扩展，目的是找出出现频率最高的若干个单词。以下是对这个任务的详细解释： ...

Microsoft+SQL+Server+2008技术内幕：T-SQL查询_源代码及附录中文版: 9.3.1 每组中的TOP n408 9.3.2 匹配当前值和前一个值413 9.3.3 分页416 9.4 逻辑转换422 9.5 总结424 第10章数据修改425 10.1 插入数据425 10.1.1 增强的VALUES子句425 10.1.2 SELECT INTO426 10.1.3 BULK...

C#编程经验技巧宝典: 54 <br>0075　用回溯法找出n个自然数中取r个数的全排列　55 <br>0076　约瑟夫环问题　56 <br>0077　猴子选大王　57 <br>0078　如何判断IP是否正确　57 <br>0079　如何将小写金额转换为大写金额　57...

Global site tag (gtag.js) - Google Analytics