`
kjkhi
  • 浏览: 185144 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

大数据处理--BitSet

阅读更多

java.util.BitSet可以按位存储。
计算机中一个字节(byte)占8位(bit),我们java中数据至少按字节存储的,
比如一个int占4个字节。
如果遇到大的数据量,这样必然会需要很大存储空间和内存。
如何减少数据占用存储空间和内存可以用算法解决。
java.util.BitSet就提供了这样的算法。
比如有一堆数字,需要存储,source=[3,5,6,9]
用int就需要4*4个字节。
java.util.BitSet可以存true/false。
如果用java.util.BitSet,则会少很多,其原理是:
1,先找出数据中最大值maxvalue=9
2,声明一个BitSet bs,它的size是maxvalue+1=10
3,遍历数据source,bs[source[i]]设置成true.

最后的值是:
(0为false;1为true)
bs [0,0,0,1,0,1,1,0,0,1]
                3,   5,6,       9

这样一个本来要int型需要占4字节共32位的数字现在只用了1位!
比例32:1  

这样就省下了很大空间。

 

 

看看测试例子

[html] view plaincopy
 
  1. package com;  
  2.   
  3. import java.util.BitSet;  
  4.   
  5. public class MainTestThree {  
  6.   
  7.     /**  
  8.      * @param args  
  9.      */  
  10.     public static void main(String[] args) {  
  11.         BitSet bm=new BitSet();  
  12.         System.out.println(bm.isEmpty()+"--"+bm.size());  
  13.         bm.set(0);  
  14.         System.out.println(bm.isEmpty()+"--"+bm.size());  
  15.         bm.set(1);  
  16.         System.out.println(bm.isEmpty()+"--"+bm.size());  
  17.         System.out.println(bm.get(65));  
  18.         System.out.println(bm.isEmpty()+"--"+bm.size());  
  19.         bm.set(65);  
  20.         System.out.println(bm.isEmpty()+"--"+bm.size());  
  21.     }  
  22.   
  23. }  

 输出:
 true--64
false--64
false--64
false
false--64
false--128
 
说明默认的构造函数声明一个64位的BitSet,值都是false。
如果你要用的位超过了默认size,它会再申请64位,而不是报错。

[html] view plaincopy
 
  1. package com;  
  2.   
  3. import java.util.BitSet;  
  4.   
  5. public class MianTestFour {  
  6.   
  7.     /**  
  8.      * @param args  
  9.      */  
  10.     public static void main(String[] args) {  
  11.         BitSet bm1=new BitSet(7);  
  12.         System.out.println(bm1.isEmpty()+"--"+bm1.size());  
  13.           
  14.         BitSet bm2=new BitSet(63);  
  15.         System.out.println(bm2.isEmpty()+"--"+bm2.size());  
  16.           
  17.         BitSet bm3=new BitSet(65);  
  18.         System.out.println(bm3.isEmpty()+"--"+bm3.size());  
  19.           
  20.         BitSet bm4=new BitSet(111);  
  21.         System.out.println(bm4.isEmpty()+"--"+bm4.size());  
  22.     }  
  23.   
  24. }  


 

输出:
true--64
true--64
true--128
true--128

说明你申请的位都是以64为倍数的,就是说你申请不超过一个64的就按64算,超过一个不超过
2个的就按128算。

 

[html] view plaincopy
 
  1. package com;  
  2.   
  3. import java.util.BitSet;  
  4.   
  5. public class MainTestFive {  
  6.   
  7.     /**  
  8.      * @param args  
  9.      */  
  10.     public static void main(String[] args) {  
  11.         int[] shu={2,42,5,6,6,18,33,15,25,31,28,37};  
  12.         BitSet bm1=new BitSet(MainTestFive.getMaxValue(shu));  
  13.         System.out.println("bm1.size()--"+bm1.size());  
  14.           
  15.         MainTestFive.putValueIntoBitSet(shu, bm1);  
  16.         printBitSet(bm1);  
  17.     }  
  18.       
  19.     //初始全部为false,这个你可以不用,因为默认都是false  
  20.     public static void initBitSet(BitSet bs){  
  21.         for(int i=0;i<bs.size();i++){  
  22.             bs.set(i, false);  
  23.         }  
  24.     }  
  25.     //打印  
  26.     public static void printBitSet(BitSet bs){  
  27.         StringBuffer buf=new StringBuffer();  
  28.         buf.append("[\n");  
  29.         for(int i=0;i<bs.size();i++){  
  30.             if(i<bs.size()-1){  
  31.                 buf.append(MainTestFive.getBitTo10(bs.get(i))+",");  
  32.             }else{  
  33.                 buf.append(MainTestFive.getBitTo10(bs.get(i)));  
  34.             }  
  35.             if((i+1)%8==0&&i!=0){  
  36.                 buf.append("\n");  
  37.             }  
  38.         }  
  39.         buf.append("]");  
  40.         System.out.println(buf.toString());  
  41.     }  
  42.     //找出数据集合最大值  
  43.     public static int getMaxValue(int[] zu){  
  44.         int temp=0;  
  45.         temp=zu[0];  
  46.         for(int i=0;i<zu.length;i++){  
  47.             if(temp<zu[i]){  
  48.                 temp=zu[i];  
  49.             }  
  50.         }  
  51.         System.out.println("maxvalue:"+temp);  
  52.         return temp;  
  53.     }  
  54.     //放值  
  55.     public static void putValueIntoBitSet(int[] shu,BitSet bs){  
  56.         for(int i=0;i<shu.length;i++){  
  57.             bs.set(shu[i], true);  
  58.         }  
  59.     }  
  60.     //true,false换成1,0为了好看  
  61.     public static String getBitTo10(boolean flag){  
  62.         String a="";  
  63.         if(flag==true){  
  64.             return "1";  
  65.         }else{  
  66.             return "0";  
  67.         }  
  68.     }  
  69.   
  70. }  


 


输出:
maxvalue:42
bm1.size()--64
[
0,0,1,0,0,1,1,0,
0,0,0,0,0,0,0,1,
0,0,1,0,0,0,0,0,
0,1,0,0,1,0,0,1,
0,1,0,0,0,1,0,0,
0,0,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0
]

这样便完成了存值和取值。
注意它会对重复的数字过滤,就是说,一个数字出现过超过2次的它都记成1.

出现的次数这个信息就丢了。

 

转:http://blog.csdn.net/lushuaiyin/article/details/7546144

分享到:
评论

相关推荐

    Go-bitset-Go包实现bitsets

    理解并熟练使用Go的`bitset`包,可以极大地提高代码的效率和简洁性,特别是在处理大量布尔值时。通过`willf-bitset`这样的库,开发者可以轻松地将位集的概念应用于实际项目,实现高效的数据管理。

    开源项目-xojoc-bitset.zip

    在许多算法和数据处理场景中,位集因其内存效率和快速的位操作而被广泛使用。 位集的基本概念: 位集是一种数组,其元素为单个二进制位,可以是0或1。这种数据结构通常用于表示有限的、离散的、非负整数集合。由于...

    前端项目-bitset.js.zip

    - **数据过滤**:在大数据处理中,bitset可以用于标记数据项的属性,进行快速的筛选和合并操作。 - **游戏逻辑**:在游戏开发中,bitset可以用来表示角色的状态(如是否受伤、是否移动等),简化逻辑判断。 总结...

    bitset用法 bitset用法

    在C++编程语言中,`bitset`是一个非常有用的类模板,它可以帮助程序员高效地处理二进制数据。`bitset`的主要功能是存储位序列,并提供了丰富的成员函数来对这些位进行操作。下面我们将详细介绍`bitset`的用法。 ###...

    对java的BitSet的多线程并发的探索

    在多线程并发环境中,对BitSet的操作需要特别注意,因为位操作本身是原子性的,但BitSet的大部分方法并不是线程安全的。这篇博文主要探讨了如何在多线程环境下正确地使用Java的BitSet。 首先,我们要理解BitSet的...

    java 原生包 BitSet 源码

    Java中BitSet类是Java集合框架的一部分,它是一种用于处理位操作的高级数据结构。BitSet可以看作是一个只存储布尔值的数组,但相比于原始的布尔数组,BitSet更加内存高效,因为它以64位的块(word)来存储多个布尔值...

    c++ bitset实现

    8. **性能优化**:自定义`bitset`可能包含一些针对特定场景的优化,比如位操作的流水线处理,或者使用SIMD(单指令多数据)指令来加速位操作。 `main.cpp`可能是测试这些功能的主程序,通过创建`bitset`对象,执行...

    大数据处理算法.pdf

    大数据处理算法.pdf 大数据处理算法目录中,主要介绍了三种大数据处理算法:Bitmap 算法、Bloom Filter 算法和分而治之/Hash 映射 + Hash 统计 + 堆/快速/归并排序。 大数据处理算法一:Bitmap 算法 Bitmap 算法...

    javabitset源码-montysolr:Solr天体物理数据系统

    这个类在需要高效位操作的场景中非常有用,比如在大数据处理、内存优化或者复杂算法实现时。 在Solr中,BitSet被广泛用作索引查询结果的标记,尤其是当处理大量文档时。例如,当用户执行一个搜索查询,Solr会返回...

    Java海量数据处理BitSetmd,学习代码d

    【Java海量数据处理BitSet】 在Java编程中,处理海量数据是一项常见的挑战,尤其是在大数据领域。BitSet是Java提供的一种高效的数据结构,用于存储和操作位集合,它非常适合处理大规模的数据,尤其当数据集中的元素...

    面试题目-大数据量海量数据处理.pdf

    这些面试题目聚焦于大数据量和海量数据的处理,涵盖了各种挑战,包括数据过滤、去重、排序、频率统计和热门元素提取。以下是对这些题目的详细解析和相关知识点: 1. **URL共现问题**:这是一个典型的集合交集问题,...

    通用大数据存储和分析处理平台-Hadoop.docx

    6. **大数据处理思路**: - **Bloom filter**、**Hashing**、**bit-map**、**堆**、**双层桶划分**、**数据库索引**(如倒排索引)、**外排序**、**trie 树**等是处理大数据时的常用技术策略。 7. **配置调优**: ...

    浅谈Java BitSet使用场景和代码示例

    因为 BitSet 使用 long 数组作为内部存储结构的,所以可以处理大规模的数据。另外,BitSet 还可以使用逻辑与、逻辑或和逻辑异或操作来进行数据统计和分析。 BitSet 的应用举例 例如,在阿里的实习面试中,有一个...

    十道海量数据处理面试题(卷).doc

    海量数据处理面试题主要考察的是数据处理能力、算法理解、分布式计算原理以及高效存储策略。...对于大数据处理的面试,不仅要掌握这些基础算法,还要熟悉相关的开源工具和框架,以及数据处理的最佳实践。

    大数据杀手锏:揭秘 C++ 中 BitSet 与 BloomFilter 的神奇性能!

    《 C++ 修炼全景指南:十四 》大数据杀手锏:揭秘 C++ 中 BitSet 与 ...最后,博客还涵盖了它们在海量数据处理中的实际应用及面试中常见的相关问题,帮助开发者在大数据和分布式系统中合理使用这些工具,提升系统效率。

    BloomFilter——大规模数据处理利器 1

    总结来说,Bloom Filter是一种在大数据处理中节省空间并提高查询效率的工具,尤其适合于对精确性要求不高但需要快速响应的场景。尽管存在误判的可能性,但其巧妙的设计使得它在许多实际应用中成为一种不可或缺的数据...

    简单谈谈C++ 头文件系列之(bitset)

    在C++编程语言中,`&lt;bitset&gt;`是一个非常实用的头文件,它提供了一种高效地处理二进制位集合的工具,名为`bitset`。...理解和熟练运用`bitset`能够提升代码的性能和效率,尤其是在处理数据结构和算法的问题时。

    javabitset源码-awesome-go-cn:AwesomeGo项目的中文翻译

    bitset源码 Awesome Go 中文翻译 awesome Go项目的中文翻译,原文请点击 . 贡献 首先请看一下这个 。同时感谢这些 。 you rock! 如果你看到下面的某个项目已经不再被支持或者并不适用,请提交一个pull request建议来...

Global site tag (gtag.js) - Google Analytics