前言
看了两个哈夫曼压缩程序,学习了一把,选一个压缩和解压缩效率高的作些笔记.
一、哈夫曼压缩原理
我们知道计算机中的文件采用二进制编码,为了使文件尽可能的缩短(压缩),可以对文件中每个字节出现的次数进行统计,设法让出现次数多的字节的二进制码短些,而让那些很少出现的字节的二进制码长一些,这便使整个文件编码之后的总长度的平均期望长度降低,从而达到无损压缩数据的目的。哈夫曼uffman于1952年提出一种编码方法(算法),该方法完全依据字符(字节)出现概率来生成字符的二进制编码,而且可以证明 Huffman 算法在无损压缩算法中是最优的, 一般就叫作Huffman编码。Huffman 原理简单,实现起来也不困难,得到了广泛的应用。对应用程序、重要资料等绝对不允许信息丢失的压缩场合, Huffman 压缩是非常好的选择。
二、哈夫曼树及哈夫曼编码生成步骤:
① 扫描要压缩的文件,对字节出现的频率进行计算统计。
② 把字节按出现的频率进行排序,组成一个队列。
③ 把出现频率(权值)最低的两个字节作为叶子节点,它们的权值之和为根节点组成一棵树。
④ 把上面叶子节点的两个字节从队列中移除,并把它们组成的根节点加入到队列。
⑤ 把队列重新进行排序。重复步骤 ③④⑤ 直到队列中只有一个节点为止。
⑥ 把这棵树上的根节点定义为 0 (可自行定义 0 或 1 )左边为 0 ,右边为 1 。这样就可以得到每个叶子节点的哈夫曼编码了。
例:假设有一段文件"ASCTASCTAAAAACCTTT",其中用到4个不同字符A,C,S,T,它们在文件中出现的次数分别为 7 , 2 , 4 , 5 。把 7 , 2 , 4 , 5 当做 4 个叶子的权值用上述方法构造的哈夫曼树如图所示。
在树中令所有左分支取编码为 0 ,令所有右分支取编码为1。将从根结点起到某个叶子结点路径上的各左、右分支的编码顺序排列,就得这个叶子结点所代表的字符的二进制编码(哈夫曼编码),如上图所示。
这些编码拼成的文件"01111101001111101000000110110101010"不会混淆,因为每个字符的编码均不是其他编码的前缀,这种编码称做前缀编码。
三、压缩和解压缩文件
哈夫曼编码生成以后,所谓的压缩文件不过是将文件中每一个字节读出后用其哈夫曼编码替换,满八位后写入压缩文件,不满八位的读出下一字节凑成八位,这样边读边写,直到文件末尾.
解压缩过程与压缩过程相反,从压缩文件中读一字节(八位)缓存,然后一位一位的解码,直到读到一个哈夫曼编码,用其对应的字节数据替换写入解压文件,这样边读边解码边写,直到文件末尾.
当然写压缩文件内容前,要先写入码表(原文件的编码信息:字节----频率)用于解压缩时还原哈夫曼树及哈夫曼编码。
四、代码学习
(1)BitUtils.java 定义用到的常量
public interface BitUtils {
public static final int BITS_PER_BYTES = 8;
public static final int DIFF_BYTES = 256;
public static final int EOF = 256;
}
(2)CharCounter.java
这个类用于字节计数。其带参构造函数打开一个流文件,从流中读取每一个字节,统计每个字节出现的次数(频数),存于数组tehCounts中,其charCountSum()方法统计流文件中总的字节数
import java.io.*;
public class CharCounter {//字节计数器
private int [ ] theCounts = new int[ BitUtils.DIFF_BYTES + 1 ];
public CharCounter( )
{
}
public CharCounter( InputStream input ) throws IOException
{
int ch;
//从流中读一个字节,返回0到255范围内的int字节值
while( ( ch = input.read( ) ) != -1 )
theCounts[ ch ]++;//计数
}
public int getCount( int ch )//获取字节ch的频数
{
return theCounts[ ch & 0xff ];
}
public void setCount( int ch, int count )//设置字节ch的频数
{
theCounts[ ch & 0xff ] = count;
}
public long charCountSum()//统计流中所有字节数
{
long sum=0;
int count=theCounts.length;
int i=0;
while(i<count)
{
sum=sum+theCounts[i];
i++;
}
return sum;
}
}
末完待续......
- 大小: 3.3 KB
分享到:
相关推荐
哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩...
总之,哈夫曼压缩解压缩是数据压缩领域的一个重要方法,通过MFC和VC++,我们可以构建出直观且高效的压缩工具,便于学习和研究。在这个过程中,理解哈夫曼编码的原理、掌握MFC的使用以及实现压缩和解压缩的算法,都是...
哈夫曼实现文件的压缩与解压缩,代码关键部分有注释。
在Java编程环境中实现哈夫曼压缩与解压缩程序,我们可以利用面向对象的特性,设计多个类来完成不同部分的功能。 1. **FileChooserDemo.java**:这是一个用户界面类,通常包含用于让用户选择输入和输出文件的控件。...
哈夫曼压缩是一种高效的数据压缩方法,它基于字符出现频率构建一种特殊的二叉树——哈夫曼树。在计算机科学中,尤其是信息处理和文件压缩领域,哈夫曼编码是广泛应用的技术之一。ASC II码是计算机中用8位二进制数...
哈夫曼解压缩程序,通常被称为Szip,是一种基于哈夫曼编码的高效数据压缩算法。在信息技术领域,数据压缩是存储和传输信息的关键技术,它通过减少数据冗余来节省存储空间和提高传输效率。哈夫曼编码是数据压缩中的...
哈夫曼编码是一种高效的数据压缩方法,它基于字符出现频率构建最优的二叉树结构,从而实现数据的压缩与解压缩。本文将深入探讨哈夫曼编码的原理,并通过一个使用C++编写的哈夫曼编码压缩解压缩程序,来阐述其具体...
哈夫曼编码(Huffman Coding)是一种数据压缩算法,由美国计算机科学家大卫·艾尔曼在1952年提出。它的主要原理是基于字符出现频率构建最优的二叉树,进而为每个字符生成最短的唯一编码,使得常用字符在编码过程中...
哈夫曼编码是一种高效的数据编码方法,主要用于无损数据压缩,尤其在文本文件的压缩中表现出色。这种编码方式基于频率最小的字符用最短的二进制代码表示的原理,能够有效地减少数据存储和传输时的位数,从而达到压缩...
哈夫曼编码是一种高效的数据编码方法,主要用于无损数据压缩。在信息技术领域,尤其是...通过C语言实现哈夫曼编码的压缩与解压缩,有助于理解数据压缩的基本原理,并为进一步学习和开发更高级的压缩算法奠定基础。
在"哈夫曼实现压缩解压缩——源代码"中,我们可以期待看到一个用C语言在Linux环境下实现的哈夫曼编码和解码过程。 哈夫曼编码的过程主要包括以下步骤: 1. **构建哈夫曼树**:首先,统计所有字符的出现频率,创建...
在“利用哈夫曼原理的压缩解压缩软件”中,哈夫曼编码被应用于文件的压缩与解压缩过程。 MFC(Microsoft Foundation Classes)是微软开发的一种C++库,用于构建Windows应用程序。它提供了丰富的类结构,使得开发者...
这是哈夫曼压缩与解压缩的全套代码和需要的txt文件,huffman,tree
- 解压缩的过程与压缩相反。首先需要重建哈夫曼树,然后按照编码流逐位解析,根据哈夫曼树的结构确定每个编码对应的字符,从而还原出原始数据。 5. **Java实现** - 在Java中,可以使用`PriorityQueue`来实现最小...
在“基于哈夫曼编码的文本文件压缩与解压缩.zip”这个压缩包中,很可能包含了用于演示或教学目的的哈夫曼编码实现代码、压缩和解压缩的示例文本以及相应的结果文件。学习和理解这个压缩包的内容,可以帮助我们更好地...
哈夫曼编码是一种高效的数据压缩方法,由...这个课程设计不仅涵盖了哈夫曼编码这一经典数据压缩技术,还涉及到了C++编程、数据结构与算法等多方面的知识。通过实践,你将能够深入理解这些理论,并提升你的编程技能。
哈夫曼树(Huffman Tree),也称为最优二叉树,是数据压缩中的一种关键算法。它是基于贪心策略构建的,用于实现哈夫曼编码(Huffman Coding),这是一种无损数据压缩方法。在C++中实现哈夫曼树压缩与解压涉及到几个...
在本项目“基于哈夫曼树的文件压缩与解压缩”中,开发者利用Python实现了对doc和txt文件的压缩与解压缩功能,确保了原始文件在解压后能完全恢复,不造成任何信息失真。 哈夫曼编码的基本原理是通过构建一个特殊的...
vc++哈夫曼压缩算法 vc++哈夫曼压缩算法
Java哈夫曼编码是一种数据压缩技术,它基于哈夫曼树进行编码,通过构建最优的二叉树结构来实现高效的数据编码与解码。在Java中实现哈夫曼压缩和解压涉及到以下几个关键知识点: 1. **哈夫曼树**: 哈夫曼树...