`
smallhand
  • 浏览: 2597 次
  • 性别: Icon_minigender_1
  • 来自: 济南
最近访客 更多访客>>
社区版块
存档分类
最新评论

从海量数据中找出中位数

    博客分类:
  • Java
阅读更多
读一遍10G个整数,把整数映射到256M个区段中,用一个64位无符号整数给每个相应区段记数。
说明:整数范围是0 - 2^32 - 1,一共有4G种取值,映射到256M个区段,则每个区段有16(4G/256M = 16)种值,每16个值算一段, 0~15是第1段,16~31是第2段,……2^32-16 ~2^32-1是第256M段。一个64位无符号整数最大值是0~8G-1,这里先不考虑溢出的情况

数据怎么映射到区段上?问题尚待解决

http://blog.chinaunix.net/u3/94271/showart_2020121.html
分享到:
评论

相关推荐

    海量数据查找数据问题

    本篇文章将详细探讨如何解决"海量数据查找数据问题",并着重讨论如何在海量数据中寻找中位数以及查找特定的数。 首先,我们来关注如何在海量数据中找到中位数。中位数是一组数据的代表值,它能够反映出数据的整体...

    大数据量海量数据处理.pdf

    - **分布式处理**:对于跨多台机器的数据集,采用分布式计算框架如Hadoop或Spark,能够有效地并行处理大规模数据,找到中位数或其他统计指标。 #### 5. 热门查询与数据流分析 - **热门查询统计**:在受限的内存...

    大数据量,海量数据 处理方法总结

    4. **整数去重计数**:在2.5亿个整数中找出不重复的整数个数,当内存不足以存储全部整数时,可通过Bit-Map或Bloom Filter来估算不同整数的数量,利用其空间高效性解决。 通过上述方法的总结与实践案例的解析,我们...

    大数据量,海量数据_处理方法总结

    - 在2.5亿个整数中找出不重复的整数的个数。同样可以使用Bit-Map的方法来解决此问题。 #### 五、结论 本文详细介绍了三种常见的大数据处理方法:Bloom Filter、Hashing和Bit-Map。这些方法各有特点,在不同的应用...

    海量数据处理总结(大量数据处理)

    - **案例三:整数去重**:在2.5亿个整数中找出不重复的整数个数,当内存不足以容纳所有数据时,可以采用Bit-Map或优化后的Bloom Filter来标记元素的出现情况,进而统计不重复整数的数量。 ### 结论 海量数据处理...

    海量数据处理的方法

    在内存限制为4GB的情况下,找出A和B文件中的共同URL。可以通过构建Bloom Filter来降低内存消耗,尽管这可能会导致误报率的增加。 #### 二、Hash **定义**: Hash是一种将任意长度的输入数据转换为固定长度输出的...

    大数据量,海量数据处理

    7. 需要在海量数据中找出重复次数最多的一个。解决方法是使用HashMap来统计每个数据的频度,然后使用堆排序来输出频度最高的数据。 8. 给定上千万或亿数据,有些是相同的(重复),需要把重复的全部去掉,保留没有...

    大数据量,海量数据处理方法总结[转][文].pdf

    实战例子:在海量日志数据中找出访问百度次数最多的IP,可以通过哈希表直接存储IP并进行计数。 3. **Bitmap(位图)** 位图利用位数组来表示有限元素集中的每个元素是否存在,适用于数据范围相对较小的情况,例如...

    大数据量,海量数据 处理方法总结.pdf

    位图数据结构的一个经典应用场景是海量日志数据的处理,比如找出某天访问某网站次数最多的IP地址。 具体应用实例包括处理大规模数据文件共同URL的问题,以及海量日志数据中找到访问频率最高的IP。这些实例都涉及到...

    海量数据处理 百度、腾讯、Google面试

    我们可以先用桶划分把所有整数按大小区间划分开,然后在每个区间内使用堆结构来找到中位数。Bit-map则可以与上述两种技术结合,起到快速标记和统计的作用。在处理海量数据时,任何一种技术的独立使用都可能无法满足...

    c语言如何对海量数据进行处理

    ### 在2.5亿个整数中找出不重复的整数 处理2.5亿个整数,内存不足以容纳这些整数,问题转化为在有限空间内找出唯一整数的问题。 一种可能的解决方案是使用**位图(Bitmap)**。位图是一种使用位数组来表示整数集合...

    海量数据处理

    - 最后,比较所有小文件中频率最高的IP,找出全局的最高频率IP。 2. **案例二:统计最热门的10个查询串** - **问题背景**:给定一千万条记录,需要找出最热门的10个查询串。 - **解决方案**: - 使用哈希表在O...

    大数据量,海量数据 处理方法总结.pdf

    大数据量的处理是现代信息技术领域中不可或缺的一部分,尤其在互联网巨头如百度、谷歌和腾讯等公司中,面对海量数据的存储、检索和分析是一项核心挑战。本文将总结一些常见的大数据处理方法,包括Bloom Filter、...

    大数据量,海量数据处理方法总结参照.pdf

    标题中的“大数据量,海量数据处理方法总结参照.pdf”表明这是一个关于处理大量数据的技术文档,主要探讨了在处理海量数据时的各种策略和方法。描述提到这些方法常出现在像百度、谷歌、腾讯这样的大公司面试笔试中,...

    大数据量,海量数据 处理方法总结.docx

    - 应用场景:如在海量日志数据中,可以通过哈希IP地址并存储在内存中,统计每个IP的访问次数以找出访问最频繁的IP。 3. **Bit-Map** Bit-Map是使用位数组来表示特定范围内的元素是否存在,适用于数据范围较小但...

    十道海量数据处理面试题(卷).docx

    首先,通过Map阶段将日志中的IP与访问次数对应起来,然后在Reduce阶段对相同IP的访问次数进行求和,最后找出访问次数最多的IP。 2. **检索串频率统计** 这个问题涉及到搜索引擎的查询分析。可以使用Trie树或者...

    面试题目-大数据量海量数据处理.pdf

    15. **寻找中数**:在分布式环境中,可以使用分布式排序算法,如MapReduce的归并排序,然后找出中位数。 以上解决方案都依赖于分布式计算框架,如Hadoop和Spark,以及高效的算法和数据结构,如哈希表、堆、Trie树、...

    大数据量,海量数据处理方法总结[参考].pdf

    在处理海量日志数据时,例如找出一天内访问百度次数最多的IP,可以利用Bitmap将所有可能的IP地址存储在内存中,然后遍历日志记录进行统计。 综上所述,面对大数据量和海量数据处理,Bloom Filter、Hashing和Bitmap...

    SQL数据库对于海量数据面试题及答案.pdf

    在 2.5 亿个整数中找出不重复的整数,内存不足以容纳这2.5 亿个整数。 方案 1:采用 2-Bitmap(每个数分配2bit,00 表示不存在, 01 表示出现一次, 10 表示多次,11 无意义)进行,共需内存内存,还可以接受。 ...

    经典面试题——海量数据库

    以上技术在大数据场景下尤其重要,它们能够在有限的内存资源下处理海量数据,提供高效且节省空间的解决方案。理解和熟练运用这些数据结构和算法是IT专业人员必备的技能。在实际应用中,可以根据具体需求和资源限制...

Global site tag (gtag.js) - Google Analytics