前言
看了两个哈夫曼压缩程序,学习了一把,选一个压缩和解压缩效率高的作些笔记.
一、哈夫曼压缩原理
我们知道计算机中的文件采用二进制编码,为了使文件尽可能的缩短(压缩),可以对文件中每个字节出现的次数进行统计,设法让出现次数多的字节的二进制码短些,而让那些很少出现的字节的二进制码长一些,这便使整个文件编码之后的总长度的平均期望长度降低,从而达到无损压缩数据的目的。哈夫曼uffman于1952年提出一种编码方法(算法),该方法完全依据字符(字节)出现概率来生成字符的二进制编码,而且可以证明 Huffman 算法在无损压缩算法中是最优的, 一般就叫作Huffman编码。Huffman 原理简单,实现起来也不困难,得到了广泛的应用。对应用程序、重要资料等绝对不允许信息丢失的压缩场合, Huffman 压缩是非常好的选择。
二、哈夫曼树及哈夫曼编码生成步骤:
① 扫描要压缩的文件,对字节出现的频率进行计算统计。
② 把字节按出现的频率进行排序,组成一个队列。
③ 把出现频率(权值)最低的两个字节作为叶子节点,它们的权值之和为根节点组成一棵树。
④ 把上面叶子节点的两个字节从队列中移除,并把它们组成的根节点加入到队列。
⑤ 把队列重新进行排序。重复步骤 ③④⑤ 直到队列中只有一个节点为止。
⑥ 把这棵树上的根节点定义为 0 (可自行定义 0 或 1 )左边为 0 ,右边为 1 。这样就可以得到每个叶子节点的哈夫曼编码了。
例:假设有一段文件"ASCTASCTAAAAACCTTT",其中用到4个不同字符A,C,S,T,它们在文件中出现的次数分别为 7 , 2 , 4 , 5 。把 7 , 2 , 4 , 5 当做 4 个叶子的权值用上述方法构造的哈夫曼树如图所示。
在树中令所有左分支取编码为 0 ,令所有右分支取编码为1。将从根结点起到某个叶子结点路径上的各左、右分支的编码顺序排列,就得这个叶子结点所代表的字符的二进制编码(哈夫曼编码),如上图所示。
这些编码拼成的文件"01111101001111101000000110110101010"不会混淆,因为每个字符的编码均不是其他编码的前缀,这种编码称做前缀编码。
三、压缩和解压缩文件
哈夫曼编码生成以后,所谓的压缩文件不过是将文件中每一个字节读出后用其哈夫曼编码替换,满八位后写入压缩文件,不满八位的读出下一字节凑成八位,这样边读边写,直到文件末尾.
解压缩过程与压缩过程相反,从压缩文件中读一字节(八位)缓存,然后一位一位的解码,直到读到一个哈夫曼编码,用其对应的字节数据替换写入解压文件,这样边读边解码边写,直到文件末尾.
当然写压缩文件内容前,要先写入码表(原文件的编码信息:字节----频率)用于解压缩时还原哈夫曼树及哈夫曼编码。
四、代码学习
(1)BitUtils.java 定义用到的常量
public interface BitUtils {
public static final int BITS_PER_BYTES = 8;
public static final int DIFF_BYTES = 256;
public static final int EOF = 256;
}
(2)CharCounter.java
这个类用于字节计数。其带参构造函数打开一个流文件,从流中读取每一个字节,统计每个字节出现的次数(频数),存于数组tehCounts中,其charCountSum()方法统计流文件中总的字节数
import java.io.*;
public class CharCounter {//字节计数器
private int [ ] theCounts = new int[ BitUtils.DIFF_BYTES + 1 ];
public CharCounter( )
{
}
public CharCounter( InputStream input ) throws IOException
{
int ch;
//从流中读一个字节,返回0到255范围内的int字节值
while( ( ch = input.read( ) ) != -1 )
theCounts[ ch ]++;//计数
}
public int getCount( int ch )//获取字节ch的频数
{
return theCounts[ ch & 0xff ];
}
public void setCount( int ch, int count )//设置字节ch的频数
{
theCounts[ ch & 0xff ] = count;
}
public long charCountSum()//统计流中所有字节数
{
long sum=0;
int count=theCounts.length;
int i=0;
while(i<count)
{
sum=sum+theCounts[i];
i++;
}
return sum;
}
}
末完待续......

- 大小: 3.3 KB
分享到:
相关推荐
5. **压缩与解压缩流程**:在压缩过程中,原始文件先被分块,然后对每个块应用Huffman编码,生成的二进制流写入新的文件。解压缩则需要逆向执行这个过程,读取压缩文件中的二进制流,解码成原始的字符序列,最后重建...
其他树结构包括平衡树(如AVL树和红黑树)以及哈夫曼树(用于数据压缩)。 3. **图数据结构**:图由节点(或顶点)和连接节点的边构成,可以表示复杂的关系。图可以是无向的(边没有方向)或有向的(边有方向)。图...
- **哈夫曼树**:压缩编码,如 poj3253。 - **堆**:用于优先队列和最值问题。 - **Trie 树**:高效存储和查找字符串,分为静态建树和动态建树。 4. **简单搜索**: - **深度优先搜索(DFS)**:poj2488、poj...
嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip
训练导控系统设计.pdf
嵌入式八股文面试题库资料知识宝典-网络编程.zip
人脸转正GAN模型的高效压缩.pdf
少儿编程scratch项目源代码文件案例素材-几何冲刺 转瞬即逝.zip
少儿编程scratch项目源代码文件案例素材-鸡蛋.zip
嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID
嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip
面向智慧工地的压力机在线数据的预警应用开发.pdf
基于Unity3D的鱼类运动行为可视化研究.pdf
少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip
少儿编程scratch项目源代码文件案例素材-金币冲刺.zip
内容概要:本文深入探讨了HarmonyOS编译构建子系统的作用及其技术细节。作为鸿蒙操作系统背后的关键技术之一,编译构建子系统通过GN和Ninja工具实现了高效的源代码到机器代码的转换,确保了系统的稳定性和性能优化。该系统不仅支持多系统版本构建、芯片厂商定制,还具备强大的调试与维护能力。其高效编译速度、灵活性和可扩展性使其在华为设备和其他智能终端中发挥了重要作用。文章还比较了HarmonyOS编译构建子系统与安卓和iOS编译系统的异同,并展望了其未来的发展趋势和技术演进方向。; 适合人群:对操作系统底层技术感兴趣的开发者、工程师和技术爱好者。; 使用场景及目标:①了解HarmonyOS编译构建子系统的基本概念和工作原理;②掌握其在不同设备上的应用和优化策略;③对比HarmonyOS与安卓、iOS编译系统的差异;④探索其未来发展方向和技术演进路径。; 其他说明:本文详细介绍了HarmonyOS编译构建子系统的架构设计、核心功能和实际应用案例,强调了其在万物互联时代的重要性和潜力。阅读时建议重点关注编译构建子系统的独特优势及其对鸿蒙生态系统的深远影响。
嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip
嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题(附答案).zip
双种群变异策略改进RWCE算法优化换热网络.pdf
内容概要:本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器(APF)仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法(ipiq)、双闭环控制策略(电压外环+电流内环PI控制)以及SVPWM矢量调制技术。仿真结果显示,在APF投入前后,电网电流THD从21.9%降至3.77%,显著提高了电能质量。 适用人群:从事电力系统研究、电力电子技术开发的专业人士,尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。 使用场景及目标:适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性,优化电力系统的电能质量。 其他说明:文中提到的仿真模型涉及多个关键模块,如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等,这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。