从海量数据中找出中位数 - - ITeye博客

`

smallhand

浏览: 2650 次
性别:
来自: 济南

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2010-09 ( 2)
更多存档...

最新评论

从海量数据中找出中位数

博客分类：

Java

阅读更多

读一遍10G个整数，把整数映射到256M个区段中，用一个64位无符号整数给每个相应区段记数。
说明：整数范围是0 - 2^32 - 1，一共有4G种取值，映射到256M个区段，则每个区段有16（4G/256M = 16）种值，每16个值算一段， 0～15是第1段，16～31是第2段，……2^32-16 ～2^32-1是第256M段。一个64位无符号整数最大值是0～8G-1，这里先不考虑溢出的情况

数据怎么映射到区段上?问题尚待解决

http://blog.chinaunix.net/u3/94271/showart_2020121.html

分享到：

java序列化的作用

2010-09-08 10:28
浏览 1158
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

海量数据查找数据问题: 本篇文章将详细探讨如何解决"海量数据查找数据问题"，并着重讨论如何在海量数据中寻找中位数以及查找特定的数。首先，我们来关注如何在海量数据中找到中位数。中位数是一组数据的代表值，它能够反映出数据的整体...

大数据量海量数据处理.pdf: - **分布式处理**：对于跨多台机器的数据集，采用分布式计算框架如Hadoop或Spark，能够有效地并行处理大规模数据，找到中位数或其他统计指标。 #### 5. 热门查询与数据流分析 - **热门查询统计**：在受限的内存...

大数据量，海量数据处理方法总结: 4. **整数去重计数**：在2.5亿个整数中找出不重复的整数个数，当内存不足以存储全部整数时，可通过Bit-Map或Bloom Filter来估算不同整数的数量，利用其空间高效性解决。通过上述方法的总结与实践案例的解析，我们...

大数据量,海量数据_处理方法总结: - 在2.5亿个整数中找出不重复的整数的个数。同样可以使用Bit-Map的方法来解决此问题。 #### 五、结论本文详细介绍了三种常见的大数据处理方法：Bloom Filter、Hashing和Bit-Map。这些方法各有特点，在不同的应用...

海量数据处理总结（大量数据处理）: - **案例三：整数去重**：在2.5亿个整数中找出不重复的整数个数，当内存不足以容纳所有数据时，可以采用Bit-Map或优化后的Bloom Filter来标记元素的出现情况，进而统计不重复整数的数量。 ### 结论海量数据处理...

海量数据处理的方法: 在内存限制为4GB的情况下，找出A和B文件中的共同URL。可以通过构建Bloom Filter来降低内存消耗，尽管这可能会导致误报率的增加。 #### 二、Hash **定义**: Hash是一种将任意长度的输入数据转换为固定长度输出的...

大数据量,海量数据处理: 7. 需要在海量数据中找出重复次数最多的一个。解决方法是使用HashMap来统计每个数据的频度，然后使用堆排序来输出频度最高的数据。 8. 给定上千万或亿数据，有些是相同的（重复），需要把重复的全部去掉，保留没有...

大数据量,海量数据处理方法总结[转][文].pdf: 实战例子：在海量日志数据中找出访问百度次数最多的IP，可以通过哈希表直接存储IP并进行计数。 3. **Bitmap（位图）** 位图利用位数组来表示有限元素集中的每个元素是否存在，适用于数据范围相对较小的情况，例如...

大数据量，海量数据处理方法总结.pdf: 位图数据结构的一个经典应用场景是海量日志数据的处理，比如找出某天访问某网站次数最多的IP地址。具体应用实例包括处理大规模数据文件共同URL的问题，以及海量日志数据中找到访问频率最高的IP。这些实例都涉及到...

海量数据处理百度、腾讯、Google面试: 我们可以先用桶划分把所有整数按大小区间划分开，然后在每个区间内使用堆结构来找到中位数。Bit-map则可以与上述两种技术结合，起到快速标记和统计的作用。在处理海量数据时，任何一种技术的独立使用都可能无法满足...

c语言如何对海量数据进行处理: ### 在2.5亿个整数中找出不重复的整数处理2.5亿个整数，内存不足以容纳这些整数，问题转化为在有限空间内找出唯一整数的问题。一种可能的解决方案是使用**位图（Bitmap）**。位图是一种使用位数组来表示整数集合...

海量数据处理: - 最后，比较所有小文件中频率最高的IP，找出全局的最高频率IP。 2. **案例二：统计最热门的10个查询串** - **问题背景**：给定一千万条记录，需要找出最热门的10个查询串。 - **解决方案**： - 使用哈希表在O...

大数据量,海量数据处理方法总结.pdf: 大数据量的处理是现代信息技术领域中不可或缺的一部分，尤其在互联网巨头如百度、谷歌和腾讯等公司中，面对海量数据的存储、检索和分析是一项核心挑战。本文将总结一些常见的大数据处理方法，包括Bloom Filter、...

大数据量,海量数据处理方法总结参照.pdf: 标题中的“大数据量,海量数据处理方法总结参照.pdf”表明这是一个关于处理大量数据的技术文档，主要探讨了在处理海量数据时的各种策略和方法。描述提到这些方法常出现在像百度、谷歌、腾讯这样的大公司面试笔试中，...

大数据量,海量数据处理方法总结.docx: - 应用场景：如在海量日志数据中，可以通过哈希IP地址并存储在内存中，统计每个IP的访问次数以找出访问最频繁的IP。 3. **Bit-Map** Bit-Map是使用位数组来表示特定范围内的元素是否存在，适用于数据范围较小但...

十道海量数据处理面试题(卷).docx: 首先，通过Map阶段将日志中的IP与访问次数对应起来，然后在Reduce阶段对相同IP的访问次数进行求和，最后找出访问次数最多的IP。 2. **检索串频率统计** 这个问题涉及到搜索引擎的查询分析。可以使用Trie树或者...

面试题目-大数据量海量数据处理.pdf: 15. **寻找中数**：在分布式环境中，可以使用分布式排序算法，如MapReduce的归并排序，然后找出中位数。以上解决方案都依赖于分布式计算框架，如Hadoop和Spark，以及高效的算法和数据结构，如哈希表、堆、Trie树、...

大数据量,海量数据处理方法总结[参考].pdf: 在处理海量日志数据时，例如找出一天内访问百度次数最多的IP，可以利用Bitmap将所有可能的IP地址存储在内存中，然后遍历日志记录进行统计。综上所述，面对大数据量和海量数据处理，Bloom Filter、Hashing和Bitmap...

SQL数据库对于海量数据面试题及答案.pdf: 在 2.5 亿个整数中找出不重复的整数，内存不足以容纳这2.5 亿个整数。方案 1：采用 2-Bitmap（每个数分配2bit，00 表示不存在， 01 表示出现一次， 10 表示多次，11 无意义）进行，共需内存内存，还可以接受。 ...

数据挖掘数据集: 数据挖掘是一种从海量数据中提取有价值信息的过程，它在商务智能领域扮演着至关重要的角色。中国统计年鉴2013年版是一个详尽的数据集合，涵盖了当年中国的经济、社会、文化等各个方面的统计数据，是进行数据分析和...

Global site tag (gtag.js) - Google Analytics