浅谈bitmap算法

weihe6666

浏览: 445854 次
性别:
来自: 深圳

最近访客更多访客>>

qncb

shane1987

thewayma

lmaz007

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据结构

bitmap

浅谈bitmap算法

久闻《编程珠玑》一书中提出的bitmap算法之大名，只是没有深入的去研究，今天下午有兴致研究一番，才知道其中的玄机奥秘，不亚于KMP算法之巧妙，下面就由浅入深的谈谈bitmap算法。

一、bitmap算法思想

    32位机器上，一个整形，比如int a; 在内存中占32bit位，可以用对应的32bit位对应十进制的0-31个数，bitmap算法利用这种思想处理大量数据的排序与查询.

    优点：1.运算效率高，不许进行比较和移位；2.占用内存少，比如N=10000000；只需占用内存为N/8=1250000Byte=1.25M。
   缺点：所有的数据不能重复。即不可对重复的数据进行排序和查找。

   比如：
          第一个4就是
          00000000000000000000000000010000
          而输入2的时候
          00000000000000000000000000010100
          输入3时候
          00000000000000000000000000011100
          输入1的时候
          00000000000000000000000000011110

    思想比较简单，关键是十进制和二进制bit位需要一个map图，把十进制的数映射到bit位。下面详细说明这个map映射表。

二、map映射表

假设需要排序或者查找的总数N=10000000，那么我们需要申请内存空间的大小为int a[1 + N/32]，其中：a[0]在内存中占32为可以对应十进制数0-31，依次类推：
bitmap表为：

a[0]--------->0-31
a[1]--------->32-63
a[2]--------->64-95
a[3]--------->96-127
..........

那么十进制数如何转换为对应的bit位，下面介绍用位移将十进制数转换为对应的bit位。

三、位移转换

例如十进制0，对应在a[0]所占的bit为中的第一位：
00000000000000000000000000000001

0-31：对应在a[0]中

i =0                        00000000000000000000000000000000
temp=0                  00000000000000000000000000000000
answer=1                00000000000000000000000000000001
i =1                         00000000000000000000000000000001
temp=1                   00000000000000000000000000000001
answer=2                 00000000000000000000000000000010
i =2                          00000000000000000000000000000010
temp=2                    00000000000000000000000000000010
answer=4                  00000000000000000000000000000100
i =30                         00000000000000000000000000011110
temp=30                   00000000000000000000000000011110
answer=1073741824 01000000000000000000000000000000
i =31                         00000000000000000000000000011111
temp=31                   00000000000000000000000000011111
answer=-2147483648 10000000000000000000000000000000

32-63：对应在a[1]中

i =32                    00000000000000000000000000100000
temp=0                00000000000000000000000000000000
answer=1              00000000000000000000000000000001
i =33                     00000000000000000000000000100001
temp=1                 00000000000000000000000000000001
answer=2               00000000000000000000000000000010
i =34                      00000000000000000000000000100010
temp=2                  00000000000000000000000000000010
answer=4                00000000000000000000000000000100
i =61                       00000000000000000000000000111101
temp=29                  00000000000000000000000000011101
answer=536870912   00100000000000000000000000000000
i =62                        00000000000000000000000000111110
temp=30                   00000000000000000000000000011110
answer=1073741824 01000000000000000000000000000000
i =63                         00000000000000000000000000111111
temp=31                   00000000000000000000000000011111
answer=-2147483648 10000000000000000000000000000000

浅析上面的对应表：
1.求十进制0-N对应在数组a中的下标：
十进制0-31，对应在a[0]中，先由十进制数n转换为与32的余可转化为对应在数组a中的下标。比如n=24,那么 n/32=0，则24对应在数组a中的下标为0。又比如n=60,那么n/32=1，则60对应在数组a中的下标为1，同理可以计算0-N在数组a中的下标。

2.求0-N对应0-31中的数：
十进制0-31就对应0-31，而32-63则对应也是0-31，即给定一个数n可以通过模32求得对应0-31中的数。

3.利用移位0-31使得对应32bit位为1.

四、编程实现

#include <stdio.h>

#define BITSPERWORD 32
#define SHIFT 5
#define MASK 0x1F
#define N 10000000

int a[1 + N/BITSPERWORD];//申请内存的大小

//set 设置所在的bit位为1
//clr 初始化所有的bit位为0
//test 测试所在的bit为是否为1

void set(int i) {        a[i>>SHIFT] |=  (1<<(i & MASK)); }
void clr(int i) {        a[i>>SHIFT] &= ~(1<<(i & MASK)); }
int  test(int i){ return a[i>>SHIFT] &   (1<<(i & MASK)); }

int main()
{	int i;
	for (i = 0; i < N; i++)
		clr(i);  
	while (scanf("%d", &i) != EOF)
		set(i);
	for (i = 0; i < N; i++)
		if (test(i))
			printf("%d\n", i);

	return 0;
}

解析本例中的void set(int i) {        a[i>>SHIFT] |= (1<<(i & MASK)); }

1.i>>SHIFT：
其中SHIFT=5，即i右移5为，2^5=32,相当于i/32，即求出十进制i对应在数组a中的下标。比如i=20，通过i>>SHIFT=20>>5=0 可求得i=20的下标为0；

2.i & MASK：
其中MASK=0X1F,十六进制转化为十进制为31，二进制为0001 1111，i&（0001 1111）相当于保留i的后5位。

比如i=23，二进制为：0001 0111，那么
                         0001 0111
                   &    0001 1111 = 0001 0111 十进制为：23
比如i=83，二进制为：0000 0000 0101 0011，那么
                          0000 0000 0101 0011
                     &   0000 0000 0001 0000 = 0000 0000 0001 0011 十进制为：19

i & MASK相当于i%32。

3.1<<(i & MASK)
相当于把1左移 (i & MASK)位。
比如(i & MASK)=20，那么i<<20就相当于：
         0000 0000 0000 0000 0000 0000 0000 0001 >>20
      =0000 0000 0000 1000 0000 0000 0000 0000

4.void set(int i) {        a[i>>SHIFT] |= (1<<(i & MASK)); }等价于：
void set(int i)
{
   a[i/32] |= (1<<(i%32));
}

分享到：

二叉树的广度遍历 | KMP算法中的next数组的求法

2011-10-02 17:16
浏览 6206
评论(1)
分类:编程语言
查看更多

1 楼 paladin1988 2012-08-14

你这帖子真心不错。。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

浅谈Android LruCache的缓存策略: LRU（Least Recently Used）算法是一种常用的缓存淘汰策略，其原则是优先移除最近最少使用的数据。二、LruCache详解 LruCache是Android 3.1引入的一个内置缓存类，适用于内存缓存。它基于LinkedHashMap实现，这是...

计算机图像处理: 在C#编程语言中，我们可以利用强大的.NET Framework和各种库来实现复杂的图像处理算法。本主题将深入探讨C#中的图像处理技术，以及如何通过源码实现这些算法。 1. **C# 图形图像基础**： - GDI+（Graphics Device ...

数据结构之位图（bitmap）详解: 位图（Bitmap）是一种重要的数据结构，广泛应用于索引、数据压缩以及各种算法优化。它的核心概念是用二进制位来表示特定的信息，每个位（bit）的状态可以是0或1，分别代表...- 武森《浅谈信息学竞赛中的“0”和“1”》

kernel-devel-4.18.0-553.45.1.el8-10.x86-64.rpm: Rocky Linux 8.10内核包

Simulink中三阶单环多位量化Σ-Δ调制器的设计与实现-音频带ADC的应用（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档详细介绍了如何在Simulink中设计一个满足特定规格的音频带ADC（模数转换器）。首先选择了三阶单环多位量化Σ-Δ调制器作为设计方案，因为这种结构能在音频带宽内提供高噪声整形效果，并且多位量化可以降低量化噪声。接着，文档展示了具体的Simulink建模步骤，包括创建模型、添加各个组件如积分器、量化器、DAC反馈以及连接它们。此外，还进行了参数设计与计算，特别是过采样率和信噪比的估算，并引入了动态元件匹配技术来减少DAC的非线性误差。性能验证部分则通过理想和非理想的仿真实验评估了系统的稳定性和各项指标，最终证明所设计的ADC能够达到预期的技术标准。适用人群：电子工程专业学生、从事数据转换器研究或开发的技术人员。使用场景及目标：适用于希望深入了解Σ-Δ调制器的工作原理及其在音频带ADC应用中的具体实现方法的人群。目标是掌握如何利用MATLAB/Simulink工具进行复杂电路的设计与仿真。其他说明：文中提供了详细的Matlab代码片段用于指导读者完成整个设计流程，同时附带了一些辅助函数帮助分析仿真结果。

计算机课后习题.docx### 【计算机科学】研究生入学考试计算机组成原理专项题库设计：考研复习资源集成与优化: 内容概要：该题库专为研究生入学考试计算机组成原理科目设计，涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题，并提供详尽解析，帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》（第5版）和唐朔飞《计算机组成原理》（第2版）的全部课后习题解答，这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题，注重基础知识与重难点内容，帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点，精心编制两套全真模拟试题，并附标准答案，帮助考生检验学习成果，评估应试能力。适用人群：计划参加研究生入学考试并报考计算机组成原理科目的考生，尤其是需要系统复习和强化训练的学生。使用场景及目标：①通过研读名校考研真题，考生可以准确把握考研命题趋势与难度，有效评估复习成效；②通过经典教材课后习题的练习，考生可以巩固基础知识，掌握解题技巧；③通过章节题库的系统练习，考生可以全面掌握考试大纲要求的各个知识点，为备考打下坚实基础；④通过模拟试题的测试，考生可以检验学习成果，评估应试能力，为正式考试做好充分准备。其他说明：该题库不仅提供详细的题目解析，还涵盖了计算机组成原理的各个方面，包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作，注重理解与应用，以提高应试能力和专业知识水平。

__UNI__DB9970A__20250328141034.apk.1: __UNI__DB9970A__20250328141034.apk.1

minio-rsc-Rust资源: rust for minio

4-4-台区智能融合终端功能模块型式规范（试行）.pdf: 国网台区终端最新规范

《基于YOLOv8的化工管道焊缝缺陷检测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

python源码-1个机器学习相关资源: 一个简单的机器学习代码示例，使用的是经典的鸢尾花（Iris）数据集，通过 Scikit-learn 库实现了一个简单的分类模型。这个代码可以帮助你入门机器学习中的分类任务。

pyqt离线包，pyqt-tools离线包: pyqt离线包，pyqt-tools离线包

《基于YOLOv8的船舶机舱灭火系统状态监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

SQL常用日期和时间函数整理及使用示例: SQL常用日期和时间函数整理及在sqlserver测试示例主要包括 1.查询当前日期GETDATE 2.日期时间加减函数DATEADD 3 返回两个日期中指定的日期部分之间的差值DATEDIFF 4.日期格式转换CONVERT(VARCHAR(10),GETDATE(),120) 5.返回指定日期的年份数值 6.返回指定日期的月份数值 7.返回指定日期的天数数值

GSDML-V2.3-Turck-BL20-E-GW-EN-20160524-010300.xml: GSDML-V2.3-Turck-BL20_E_GW_EN-20160524-010300.xml

T_CPCIF 0225-2022 多聚甲醛.docx: T_CPCIF 0225-2022 多聚甲醛.docx

《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

蚕豆脱壳机设计.zip: 蚕豆脱壳机设计.zip

附件2-2：台区智能融合终端入网专业检测单位授权委托书.docx: 台区终端电科院送检文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论