`
lt200819
  • 浏览: 189348 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

海量数据处理之一:Bitmap

 
阅读更多

【什么是Bit-map】

所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。

如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte的空间,将这些空间的所有Bit位都置为0

 

然后遍历这5个元素,首先第一个元素是4,那么就把4对应的位置为1(可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况,这里默认为Big-ending),因为是从零开始的,所以要把第五位置为一:

 

然后再处理第二个元素7,将第八位置为1,,接着再处理第三个元素,一直到最后处理完所有的元素,将相应的位置为1

 

然后我们现在遍历一遍Bit区域,将该位是一的位的编号输出(2,3,4,5,7),这样就达到了排序的目的。下面的代码给出了一个BitMap的用法:排序。

【适用范围】

可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下

【基本原理及要点】

使用bit数组来表示某些元素是否存在,比如8位电话号码

【扩展】

Bloom filter可以看做是对bit-map的扩展

【问题实例】

1)已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。

8位最多99 999 999,大概需要99m个bit,大概10几m字节的内存即可。 (可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)

2)2.5亿个整数中找出不重复的整数的个数,内存空间不足以容纳这2.5亿个整数。

将bit-map扩展一下,用2bit表示一个数即可,0表示未出现,1表示出现一次,2表示出现2次及以上,在遍历这些数的时候,如果对应位置的值是0,则将其置为1;如果是1,将其置为2;如果是2,则保持不变。或者我们不用2bit来进行表示,我们用两个bit-map即可模拟实现这个2bit-map,都是一样的道理。

分享到:
评论

相关推荐

    海量数据处理方法

    海量数据处理方法 海量数据处理是指基于海量数据上的存储、处理、操作,解决方案包括巧妙的算法搭配适合的数据结构,如 Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie 树,以及大而化小、分而治之的策略。...

    海量数据处理系列之:用C++实现Bitmap算法

    bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 适用范围:可进行数据的快速查找,...

    常见的海量数据处理方法

    ### 常见的海量数据处理方法 在大数据时代,如何高效、准确地处理海量数据是许多企业和组织面临的关键挑战之一。本文将详细介绍几种实用的数据处理方法,包括但不限于算法优化和技术选择,旨在帮助读者更好地理解和...

    海量数据处理

    #### 一、海量数据处理概述 在当前的大数据时代,数据量的急剧增长使得传统的数据处理技术面临着前所未有的挑战。海量数据处理是指在合理的时间内,对大规模数据集进行高效存储、管理和分析的技术过程。这种处理...

    教你如何迅速秒杀掉:99%的海量数据处理面试题

    在信息技术领域,海量数据处理是一项关键能力,尤其在大数据时代,如何高效地处理和分析海量数据成为企业竞争的核心。本文将深入探讨如何应对99%的海量数据处理面试题,提炼出核心策略,帮助求职者迅速掌握解题技巧...

    99%的海量数据处理面试题

    【海量数据处理】是指在面对数据量巨大,超出单机处理能力的情况下,所采用的一系列技术和方法。这类问题通常涉及到存储、处理和操作大量数据,其中“海量”意味着数据量过大,以至于无法在短时间内直接处理或者无法...

    大数据量,海量数据处理方法总结[转][文].pdf

    【大数据量,海量数据处理方法总结】 大数据量的处理是现代信息技术领域的重要课题,尤其在互联网巨头如百度、谷歌和腾讯等公司中,这类问题尤为常见。本文将概述几种处理海量数据的有效方法,包括Bloom Filter、...

    海量数据去重的Hash与BloomFilter,bitmap1

    在IT领域,尤其是在大数据处理和分布式系统中,数据去重是一项关键任务。本文将深入探讨两种常用的技术:哈希和布隆过滤器,以及它们在处理海量数据时的应用。 哈希算法是数据去重的基础,它能够将任意大小的数据...

    海量 数据 处理 面试题 与 方法大总结

    在IT行业中,海量数据处理是一个非常重要的领域,它涉及到了很多高效的数据存储、检索以及处理技术。本文将基于给定的文件内容,对其中提及的一些关键知识点进行详细的阐述。 #### 1. 大规模 IP 地址的处理 - **...

    海量数据处理 百度、腾讯、Google面试

    互联网巨头企业,比如百度、腾讯、Google,对于海量数据处理有着极为严格的要求。这不仅体现在他们的日常业务中,更是成为了技术面试中的必考环节。面试者只有深入理解并掌握了海量数据处理的关键技术,才能在面试中...

    海量数据处理问题汇总及方法总结

    以下是对题目中给出的几种典型海量数据处理问题及其解决策略的详细解析: 1. **查找共同URL**: - 方案1:采用分治策略,将大文件切分为小文件,然后通过哈希函数将URL分散存储,之后对比每对小文件,使用哈希集合...

    解析bitmap处理海量数据及其实现方法分析

    【Bitmap处理海量数据详解】 Bitmap,也称为位图或位映射,是一种高效的数据结构,它利用二进制位来存储信息,常用于处理大量数据的标记和索引。在处理海量数据时,Bitmap能够节省存储空间,尤其适用于数据范围相对...

    大数据量,海量数据处理方法总结[参考].pdf

    大数据量和海量数据处理是软件开发领域中一个关键的话题,特别是在互联网巨头如百度、Google、腾讯等公司,这类问题在面试和笔试中频繁出现。本文将对几种常见的处理方法进行详细解析。 首先,Bloom Filter是一种...

    海量数据面试题整理txt

    ### 海量数据处理与面试题解析 #### 1. URL 去重算法 在处理海量URL时,需要高效地进行去重处理。一种常见的方式是通过哈希集(hash set)来实现。 - **方法一**:对于每个URL,将其添加到一个哈希集中。如果哈希...

    Integrating+BitMap+Structure+deeply+inside+ClickHouse.pdf

    ClickHouse 是一个高性能的列式数据库管理系统,常用于在线分析处理(OLAP)场景。它在集成BitMap结构后,极大地增强了对...在实际应用中,用户可以利用BitMap64数据类型和优化的函数支持,更高效地处理和分析海量数据。

    数据处理面试题

    接下来,具体到海量数据处理的方法论,我们可以列举以下几种常用策略: 1. 分而治之(Divide and Conquer):通过将大规模问题划分为小规模的问题来简化处理过程。这通常涉及到hash映射、hash统计以及各种排序算法...

    c语言如何对海量数据进行处理

    本文将针对几个具体的海量数据处理场景,探讨如何使用C语言以及一些高效算法来应对这些挑战。 ### 寻找共同URL 当两个文件各自包含50亿个URL,且每个URL占据64字节的存储空间时,整个数据集的大小将达到640GB。...

Global site tag (gtag.js) - Google Analytics