`

Java压缩技术(六) BZIP2——Commons实现

阅读更多
想要把一整套算法都整理出来,的确是件非常老心费力的事情! 但是如果一件事情不能有始有终,难免会有遗憾! 索性,继续整理!

相关链接:
Java压缩技术(一) ZLib
Java压缩技术(二) ZIP压缩——Java原生实现
Java压缩技术(三) ZIP解压缩——Java原生实现
Java压缩技术(四) GZIP——Java原生实现
Java压缩技术(五) GZIP相关——浏览器解析
Java压缩技术(六) BZIP2——Commons实现
Java压缩技术(七) TAR——Commons实现

BZip2与GZip有什么渊源,我这里不深究。我要说的只是,这两种算法,你在linux下都可以找到相应的操作命令。

GZip
压缩
gzip <file> 将得到压缩文件<file>.gz,同时删除文件<file>
解压缩
gzip -d <file>.gz 将得到压缩文件<file>,同时删除文件<file>.gz

BZip2与之相当,几乎没有什么差别~~
BZip2
压缩
bzip2 <file> 将得到压缩文件<file>.bz2,同时删除文件<file>
解压缩
bzip2 -d <file>.bz2 将得到压缩文件<file>,同时删除文件<file>.bz2

除了命令不同外,几乎是一样的!

再说实现。GZIP是JDK自带的算法实现,但BZip2则不曾享受这个待遇。 不过,强大的Apache坚决不会让这些个在Linux下如鱼得水的算法在Java世界中销声匿迹。Apache在Commons Compress中提供了相应的实现。同时,还包括众所周知的tar、cpio、zip等算法实现,其中最为丰富的当属zip实现了!

我继续依葫芦画瓢~~~
BZip2CompressorOutputStream类用于压缩
BZip2CompressorInputStream类用于解压缩

先说压缩实现,BZip2CompressorOutputStream只有一个方法用于压缩,就是带定长的write方法。简单调用如下文所示:
	/**
	 * 数据压缩
	 * 
	 * @param is
	 * @param os
	 * @throws Exception
	 */
	public static void compress(InputStream is, OutputStream os)
			throws Exception {

		BZip2CompressorOutputStream gos = new BZip2CompressorOutputStream(os);

		int count;
		byte data[] = new byte[BUFFER];
		while ((count = is.read(data, 0, BUFFER)) != -1) {
			gos.write(data, 0, count);
		}

		gos.finish();

		gos.flush();
		gos.close();
	}

与GZip实现有何差别?除了换掉了GZIPOutputStream没有任何差别。

解压缩就更不用说了,BZip2CompressorInputStream提供了一个带定长的read方法。简单调用如下文所示:
	/**
	 * 数据解压缩
	 * 
	 * @param is
	 * @param os
	 * @throws Exception
	 */
	public static void decompress(InputStream is, OutputStream os)
			throws Exception {

		BZip2CompressorInputStream gis = new BZip2CompressorInputStream(is);

		int count;
		byte data[] = new byte[BUFFER];
		while ((count = gis.read(data, 0, BUFFER)) != -1) {
			os.write(data, 0, count);
		}

		gis.close();
	}

嗯,没什么难度!
IT这行就是这样,只要你肯用心,能触类旁通,就能融会贯通!
给一个完整实现:
/**
 * 2010-4-15
 */
package org.zlex.commons.compress.compress;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream;
import org.apache.commons.compress.compressors.bzip2.BZip2CompressorOutputStream;

/**
 * BZip2工具
 * 
 * @author  <a href="mailto:zlex.dongliang@gmail.com">梁栋</a>
 * @since 1.0
 */
public abstract class BZip2Utils {

	public static final int BUFFER = 1024;
	public static final CharSequence EXT = ".bz2";

	/**
	 * 数据压缩
	 * 
	 * @param data
	 * @return
	 * @throws Exception
	 */
	public static byte[] compress(byte[] data) throws Exception {
		ByteArrayInputStream bais = new ByteArrayInputStream(data);
		ByteArrayOutputStream baos = new ByteArrayOutputStream();

		// 压缩
		compress(bais, baos);

		byte[] output = baos.toByteArray();

		baos.flush();
		baos.close();

		bais.close();

		return output;
	}

	/**
	 * 文件压缩
	 * 
	 * @param file
	 * @throws Exception
	 */
	public static void compress(File file) throws Exception {
		compress(file, true);
	}

	/**
	 * 文件压缩
	 * 
	 * @param file
	 * @param delete
	 *            是否删除原始文件
	 * @throws Exception
	 */
	public static void compress(File file, boolean delete) throws Exception {
		FileInputStream fis = new FileInputStream(file);
		FileOutputStream fos = new FileOutputStream(file.getPath() + EXT);

		compress(fis, fos);

		fis.close();
		fos.flush();
		fos.close();

		if (delete) {
			file.delete();
		}
	}

	/**
	 * 数据压缩
	 * 
	 * @param is
	 * @param os
	 * @throws Exception
	 */
	public static void compress(InputStream is, OutputStream os)
			throws Exception {

		BZip2CompressorOutputStream gos = new BZip2CompressorOutputStream(os);

		int count;
		byte data[] = new byte[BUFFER];
		while ((count = is.read(data, 0, BUFFER)) != -1) {
			gos.write(data, 0, count);
		}

		gos.finish();

		gos.flush();
		gos.close();
	}

	/**
	 * 文件压缩
	 * 
	 * @param path
	 * @throws Exception
	 */
	public static void compress(String path) throws Exception {
		compress(path, true);
	}

	/**
	 * 文件压缩
	 * 
	 * @param path
	 * @param delete
	 *            是否删除原始文件
	 * @throws Exception
	 */
	public static void compress(String path, boolean delete) throws Exception {
		File file = new File(path);
		compress(file, delete);
	}

	/**
	 * 数据解压缩
	 * 
	 * @param data
	 * @return
	 * @throws Exception
	 */
	public static byte[] decompress(byte[] data) throws Exception {
		ByteArrayInputStream bais = new ByteArrayInputStream(data);
		ByteArrayOutputStream baos = new ByteArrayOutputStream();

		// 解压缩

		decompress(bais, baos);

		data = baos.toByteArray();

		baos.flush();
		baos.close();

		bais.close();

		return data;
	}

	/**
	 * 文件解压缩
	 * 
	 * @param file
	 * @throws Exception
	 */
	public static void decompress(File file) throws Exception {
		decompress(file, true);
	}

	/**
	 * 文件解压缩
	 * 
	 * @param file
	 * @param delete
	 *            是否删除原始文件
	 * @throws Exception
	 */
	public static void decompress(File file, boolean delete) throws Exception {
		FileInputStream fis = new FileInputStream(file);
		FileOutputStream fos = new FileOutputStream(file.getPath().replace(EXT,
				""));
		decompress(fis, fos);
		fis.close();
		fos.flush();
		fos.close();

		if (delete) {
			file.delete();
		}
	}

	/**
	 * 数据解压缩
	 * 
	 * @param is
	 * @param os
	 * @throws Exception
	 */
	public static void decompress(InputStream is, OutputStream os)
			throws Exception {

		BZip2CompressorInputStream gis = new BZip2CompressorInputStream(is);

		int count;
		byte data[] = new byte[BUFFER];
		while ((count = gis.read(data, 0, BUFFER)) != -1) {
			os.write(data, 0, count);
		}

		gis.close();
	}

	/**
	 * 文件解压缩
	 * 
	 * @param path
	 * @throws Exception
	 */
	public static void decompress(String path) throws Exception {
		decompress(path, true);
	}

	/**
	 * 文件解压缩
	 * 
	 * @param path
	 * @param delete
	 *            是否删除原始文件
	 * @throws Exception
	 */
	public static void decompress(String path, boolean delete) throws Exception {
		File file = new File(path);
		decompress(file, delete);
	}

}

对应再来个测试用例,测试用例如下所示:
/**
 * 2010-4-13
 */
package org.zlex.commons.compress.compress;

import static org.junit.Assert.assertEquals;

import java.io.DataInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;

import org.junit.Test;

/**
 * BZip2
 * 
 * @author <a href="mailto:zlex.dongliang@gmail.com">梁栋</a>
 * @since 1.0
 */
public class BZip2UtilsTest {

	private String inputStr = "zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org";

	@Test
	public final void testDataCompress() throws Exception {

		byte[] input = inputStr.getBytes();
		System.err.println("原文:\t" + inputStr);
		System.err.println("长度:\t" + input.length);

		byte[] data = BZip2Utils.compress(input);
		System.err.println("压缩后:\t");
		System.err.println("长度:\t" + data.length);

		byte[] output = BZip2Utils.decompress(data);
		String outputStr = new String(output);
		System.err.println("解压缩后:\t" + outputStr);
		System.err.println("长度:\t" + output.length);

		assertEquals(inputStr, outputStr);

	}

	@Test
	public final void testFileCompress() throws Exception {

		FileOutputStream fos = new FileOutputStream("d:/f.txt");

		fos.write(inputStr.getBytes());
		fos.flush();
		fos.close();

		BZip2Utils.compress("d:/f.txt");

		BZip2Utils.decompress("d:/f.txt.bz2");

		File file = new File("d:/f.txt");

		FileInputStream fis = new FileInputStream(file);

		DataInputStream dis = new DataInputStream(fis);

		byte[] data = new byte[(int) file.length()];
		dis.readFully(data);

		fis.close();

		String outputStr = new String(data);
		assertEquals(inputStr, outputStr);
	}
}

虽然,两种算法在代码实现上几乎没有什么差别,但在压缩上想要看到效果,还真让我费了点事!
控制台输出如下所示:
引用

原文: zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org
长度: 529
压缩后:
长度: 76
解压缩后: zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org,zlex@zlex.org,snowolf@zlex.org,zlex.snowolf@zlex.org
长度: 529

529字节-->76字节!
GZIP本身不需要太长的内容,经过压缩就能体现出压缩效果,而BZip2则需要压缩很长的内容时,才能体现其压缩效果,这说明BZip2更适合大数据压缩?!

Commons Compress不仅支持BZip2算法实现,同时也支持GZip算法实现。对于GZip算法实现,与Java原生实现基本上没有什么差别。其源代码分析,仅仅是做了简单的包装。
不过有必要提及的一点是,Commons Compress为压缩(GZip和BZip2)构建了压缩算法工厂类CompressorStreamFactory。通过这个类可以方便的构建GZip和BZip2的输入输出流,关键字分别为“gz”和“bzip2”。
GZip

		// GzipCompressorInputStream      
		CompressorInputStream gzipIn = new CompressorStreamFactory()
				.createCompressorInputStream("gz", is);

		// GzipCompressorOutputStream
		CompressorOutputStream gzipOut = new CompressorStreamFactory()
				.createCompressorOutputStream("gz", os);

BZip2

		// BZip2CompressorInputStream
		CompressorInputStream bzip2In = new CompressorStreamFactory()
				.createCompressorInputStream("bzip2", is);

		// BZip2CompressorOutputStream
		CompressorOutputStream bzip2Out = new CompressorStreamFactory()
				.createCompressorOutputStream("bzip2", os);

GZip和BZip2在算法实现步骤上基本上没有什么差别,如果有必要统一,可按上述代码实现!


完整代码详见附件!

相关链接:
Java压缩技术(一) ZLib
Java压缩技术(二) ZIP压缩——Java原生实现
Java压缩技术(三) ZIP解压缩——Java原生实现
Java压缩技术(四) GZIP——Java原生实现
Java压缩技术(五) GZIP相关——浏览器解析
Java压缩技术(六) BZIP2——Commons实现
Java压缩技术(七) TAR——Commons实现
8
8
分享到:
评论
4 楼 ligyu110 2014-03-21  
3 楼 wzq83045309 2012-07-30  
2 楼 yc2006 2010-04-15  
总结的也太全面了,省的我自己来总结了,谢谢了,收下
1 楼 javaz 2010-04-15  
继续关注。。

相关推荐

    Java压缩技术(七) TAR——Commons实现

    TAR文件通常会与其他压缩算法如gzip或bzip2结合使用,以减少文件大小。 Apache Commons Compress库: Apache Commons Compress库是一个强大的Java库,它支持多种文件压缩格式,包括TAR。这个库简化了在Java应用程序...

    java压缩技术

    ZLib ZIP 压缩——Java 原生实现 ZIP 解压缩——Java 原生实现 GZIP——Java 原生实现 GZIP 相关——浏览器解析 BZIP2——Commons 实现 TAR——Commons 实现

    Java 解压缩 bzip2.jar

    Java 解压缩 bzip2.jar

    java源码:文件压缩解压缩包 Commons Compress.rar

    在 Java 开发中,如果需要处理 ZIP、GZIP、BZIP2、7z、ARJ、TAR、CPIO、RAR 等多种压缩格式,Apache Commons Compress 库是一个非常实用的选择。 Apache Commons Compress 库的核心优势在于其模块化的架构,每个...

    bzip2代码样例

    在IT行业中,压缩技术是数据存储和传输的重要环节,而bzip2是一种高效且流行的无损数据压缩算法。本文将详细讲解如何使用Java操作bzip2文件,主要基于提供的两个文件`BZip2Utils.java`和`BZip2UtilsTest.java`。 1....

    bzip2.jar及java源码

    bzip2.jar是一个Java版本的bzip2库,使得Java开发者能够方便地在应用程序中集成bzip2的压缩和解压缩功能。 在Java环境中,bzip2.jar通常包含以下关键类: 1. `BZip2CompressorInputStream`: 这个类实现了输入流...

    压缩解压缩工具Bzip2源码

    bzip2 是一个基于Burrows-Wheeler 变换的无损压缩软件,压缩效果比传统的LZ77/LZ78压缩算法来得好。它是一款免费软件。可以自由分发免费使用。它广泛存在于UNIX && LINUX的许多发行版本中。bzip2能够进行高质量的...

    bzip2-1.0.6 源码

    在源码层面,bzip2 实现了Burrows-Wheeler变换(BWT)和霍夫曼编码(Huffman coding)等数据压缩技术。BWT 是一种基于字符排列的预处理方法,它将原始文本转换为一种新的形式,使得相似的字符序列聚集在一起,从而...

    bzip2-1.0.6.tar.gz

    今天,我们将聚焦于一个经典的压缩工具——"bzip2-1.0.6.tar.gz",探索其背后的原理与应用。 首先,让我们来了解这个文件的基本构成。"bzip2-1.0.6.tar.gz"是一个包含了bzip2 1.0.6版本源代码的压缩文件。这里的...

    编译好的bzip2库version:bzip2-1.0.6-pack.rar

    **六、bzip2与其他压缩工具的比较** 1. **与gzip比较**: gipz速度快,但压缩率通常低于bzip2;gzip支持多线程压缩,而bzip2不支持。 2. **与7z或xz比较**: 7z和xz使用更复杂的压缩算法,往往可以获得更高的压缩率,...

    simplify_bzip2_1.0.6.tar.gz

    总的来说,simplify_bzip2_1.0.6是bzip2的一个轻量化版本,它保留了核心功能,简化了集成步骤,便于开发者在各种项目中快速、高效地使用bzip2的压缩技术。无论是在服务器端还是在嵌入式设备上,这个精简版都能发挥出...

    commons-compress-1.18.jar【说明:Java、压缩库、压缩算法、解压缩、数据存储、压缩格式】

    1. 压缩格式支持:commons-compress-1.18.jar支持多种常见的压缩格式,如ZIP、GZIP、BZIP2等,适应不同压缩需求。 2. 配置灵活性:该库提供了丰富的配置选项,开发者可以根据需求调整压缩参数和算法。

    BZIP2的说明文档

    BZIP2不仅是一个压缩程序,还包含了一个用于数据压缩的库——libbzip2。这两个组件共同构成了一个完整的压缩解决方案。 ##### 2.2 命令语法 **bzip2** 的命令行使用方法相对简单: ``` bzip2 [选项] 文件名... ``...

    BZip2 C 1.06

    **BZip2 C 1.06:开源压缩算法的高效实现** BZip2 C 1.06 是一个开源的、高效的文件压缩库,它以其优秀的数据压缩比和相对较高的压缩效率闻名于IT领域。BZip2是伯纳德·布拉德福德·朱利安(Bernard Julian Burford...

    bzip2-1.0.7.tar.gz

    bzip2是一款广泛使用的开源数据压缩工具,其1.0.7版本是它的一个经典发行版。这款软件由 Julian Seward 创建,以提供比传统gzip更高的压缩率而著名。bzip2采用的是Burrows-Wheeler变换和霍夫曼编码相结合的压缩算法...

    基于java的文件压缩解压缩包 Commons Compress.zip

    Java中的文件压缩与解压缩是开发过程中的常见需求,Apache Commons Compress库为Java开发者提供了一个强大且灵活的工具集,用于处理各种压缩格式。这个库不仅支持常见的ZIP和GZIP格式,还支持如ARJ、7Z、BZip2、CPIO...

    windows下将文件压缩成bz2格式的bzip2

    在Windows操作系统中,将文件压缩成bz2格式通常涉及到使用名为`bzip2`的工具。`bzip2`是一款开源、免费的数据压缩软件,它以其高效和高压缩比而闻名。这种格式常用于存储大量数据,特别是网络传输或者保存磁盘空间时...

    bzip2-1.0.6库文件

    bzip2使用了一种称为Burrows-Wheeler变换(BWT)的预处理方法,配合哈夫曼编码(Huffman Coding)实现高效的数据压缩。BWT通过对原始数据进行排列,使得相似的数据块聚集在一起,然后通过哈夫曼编码进一步压缩这些...

    bzip2-1.0.5-src.zip

    【bzip2】是伯纳德·皮耶·吉尔(Bernard Pierre Gile)开发的一种免费且开源的数据压缩工具,它采用了Burrows-Wheeler变换和霍夫曼编码技术,提供了比传统gzip更高的压缩率。bzip2主要以命令行形式运行,支持单个...

    编译安装bzip2的笔记。

    bzip2 是一种流行的压缩工具,广泛应用于 Linux 和 Unix 系统中。下面是编译安装 bzip2 的详细笔记: 首先,需要下载 bzip2 的源代码包。可以从官网或其他镜像站点下载最新版本的源代码包。下载完成后,需要将源...

Global site tag (gtag.js) - Google Analytics