大数据处理--BitSet

kjkhi

浏览: 187672 次
性别:
来自: 广州

最近访客更多访客>>

XiaoPY

royalking

0obeiiedo0

xiexjbailx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java编程
大数据

大数据

java.util.BitSet可以按位存储。
计算机中一个字节（byte）占8位（bit），我们java中数据至少按字节存储的，
比如一个int占4个字节。
如果遇到大的数据量，这样必然会需要很大存储空间和内存。
如何减少数据占用存储空间和内存可以用算法解决。
java.util.BitSet就提供了这样的算法。
比如有一堆数字，需要存储，source=[3,5,6,9]
用int就需要4*4个字节。
java.util.BitSet可以存true/false。
如果用java.util.BitSet，则会少很多，其原理是：
1，先找出数据中最大值maxvalue=9
2，声明一个BitSet bs,它的size是maxvalue+1=10
3，遍历数据source，bs[source[i]]设置成true.
最后的值是：
(0为false;1为true)
bs [0,0,0,1,0,1,1,0,0,1]
3, 5,6, 9

这样一个本来要int型需要占4字节共32位的数字现在只用了1位！
比例32:1
这样就省下了很大空间。

看看测试例子

[html]view plaincopy 
package com;  
  
import java.util.BitSet;  
  
public class MainTestThree {  
  
    /**  
     * @param args  
     */  
    public static void main(String[] args) {  
        BitSet bm=new BitSet();  
        System.out.println(bm.isEmpty()+"--"+bm.size());  
        bm.set(0);  
        System.out.println(bm.isEmpty()+"--"+bm.size());  
        bm.set(1);  
        System.out.println(bm.isEmpty()+"--"+bm.size());  
        System.out.println(bm.get(65));  
        System.out.println(bm.isEmpty()+"--"+bm.size());  
        bm.set(65);  
        System.out.println(bm.isEmpty()+"--"+bm.size());  
    }  
  
}  

输出：
true--64
false--64
false--64
false
false--64
false--128

说明默认的构造函数声明一个64位的BitSet，值都是false。
如果你要用的位超过了默认size,它会再申请64位，而不是报错。

[html]view plaincopy 
package com;  
  
import java.util.BitSet;  
  
public class MianTestFour {  
  
    /**  
     * @param args  
     */  
    public static void main(String[] args) {  
        BitSet bm1=new BitSet(7);  
        System.out.println(bm1.isEmpty()+"--"+bm1.size());  
          
        BitSet bm2=new BitSet(63);  
        System.out.println(bm2.isEmpty()+"--"+bm2.size());  
          
        BitSet bm3=new BitSet(65);  
        System.out.println(bm3.isEmpty()+"--"+bm3.size());  
          
        BitSet bm4=new BitSet(111);  
        System.out.println(bm4.isEmpty()+"--"+bm4.size());  
    }  
  
}  

输出：
true--64
true--64
true--128
true--128

说明你申请的位都是以64为倍数的，就是说你申请不超过一个64的就按64算，超过一个不超过
2个的就按128算。

[html]view plaincopy 
package com;  
  
import java.util.BitSet;  
  
public class MainTestFive {  
  
    /**  
     * @param args  
     */  
    public static void main(String[] args) {  
        int[] shu={2,42,5,6,6,18,33,15,25,31,28,37};  
        BitSet bm1=new BitSet(MainTestFive.getMaxValue(shu));  
        System.out.println("bm1.size()--"+bm1.size());  
          
        MainTestFive.putValueIntoBitSet(shu, bm1);  
        printBitSet(bm1);  
    }  
      
    //初始全部为false，这个你可以不用，因为默认都是false  
    public static void initBitSet(BitSet bs){  
        for(int i=0;i<bs.size();i++){  
            bs.set(i, false);  
        }  
    }  
    //打印  
    public static void printBitSet(BitSet bs){  
        StringBuffer buf=new StringBuffer();  
        buf.append("[\n");  
        for(int i=0;i<bs.size();i++){  
            if(i<bs.size()-1){  
                buf.append(MainTestFive.getBitTo10(bs.get(i))+",");  
            }else{  
                buf.append(MainTestFive.getBitTo10(bs.get(i)));  
            }  
            if((i+1)%8==0&&i!=0){  
                buf.append("\n");  
            }  
        }  
        buf.append("]");  
        System.out.println(buf.toString());  
    }  
    //找出数据集合最大值  
    public static int getMaxValue(int[] zu){  
        int temp=0;  
        temp=zu[0];  
        for(int i=0;i<zu.length;i++){  
            if(temp<zu[i]){  
                temp=zu[i];  
            }  
        }  
        System.out.println("maxvalue:"+temp);  
        return temp;  
    }  
    //放值  
    public static void putValueIntoBitSet(int[] shu,BitSet bs){  
        for(int i=0;i<shu.length;i++){  
            bs.set(shu[i], true);  
        }  
    }  
    //true,false换成1,0为了好看  
    public static String getBitTo10(boolean flag){  
        String a="";  
        if(flag==true){  
            return "1";  
        }else{  
            return "0";  
        }  
    }  
  
}  

输出:
maxvalue:42
bm1.size()--64
[
0,0,1,0,0,1,1,0,
0,0,0,0,0,0,0,1,
0,0,1,0,0,0,0,0,
0,1,0,0,1,0,0,1,
0,1,0,0,0,1,0,0,
0,0,1,0,0,0,0,0,
0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0
]

这样便完成了存值和取值。
注意它会对重复的数字过滤，就是说，一个数字出现过超过2次的它都记成1.
出现的次数这个信息就丢了。

转：http://blog.csdn.net/lushuaiyin/article/details/7546144

分享到：

大数据处理--倒排索引 | 大数据处理--BloomFilter

2014-06-28 11:01
浏览 1491
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论