此文主要分析的是哈夫曼压缩的重点包括统计字符频率,建哈夫曼树,生成码表。哈夫曼压缩是最常用的一种静态无痕压缩。
以前也学习过哈夫曼的算法结构,但是没有自己去写代码实现,这次再学习了一遍,更加深刻理解哈夫曼压缩的原理,如何真正实现文件的压缩节省内存资源。下面梳理下我的代码和分析逻辑。
第一步是打开文件,读取文件流,统计文字频率。
方法是读取文件内容,根据每个字符有唯一的字节,存储在长度为256的数组中。可将字符和频率绑定为一个节点类Node,所有节点类的对象存储在队列中。
/*
* 统计频率
*/
private static Mylist<Node> countFre(String path) throws IOException {
// 创建一个文件输入流对象
java.io.FileInputStream fis = new java.io.FileInputStream(path);
java.io.BufferedInputStream bis = new java.io.BufferedInputStream(fis);
int[] byteArray = new int[256];
while (bis.available() > 0) {
int i = bis.read();
// 统计字符的频率
byteArray[i]++;
}
// 关闭文件输入流
fis.close();
Mylist<Node> l = new Mylist<Node>();
// 遍历数组,打印并保存
for (int i = 0; i < byteArray.length; i++) {
if (byteArray[i] != 0) {
char c = (char) i;
int count = byteArray[i];
// System.out.println("字符:"+c+" "+"频率:"+count);
// 添加到队列
l.add(new Node(c, count));
}
}
return l;
}
第二步是排序。
根据字符所对应的频率由小到大进行排序,可用选择排序算法。
/*
* 排序
*/
private static void sort(Mylist<Node> list) {
for (int i = 0; i < list.size() - 1; i++) {
int min = i;
for (int j = i + 1; j < list.size(); j++) {
// 如果j返回的节点中的频率大于i
if (list.get(j).getFrequency() < list.get(min).getFrequency())
min = j;
}
// 交换
if (i != min) {
Node n = list.get(min);
list.set(list.get(i), min);
list.set(n, i);
}
}
}
第三步是构建哈夫曼二叉树。
依次取出排好序的节点,每次取出前两个生成一个父节点,再将父节点添加到队列中,这里我将生成父节点的过程写在另一个函数creatHFM里,方便理解逻辑。
/*
* 构建哈夫曼二叉树
*/
private static Node creat(Mylist<Node> list){
while (list.size() > 1) {
Node l = list.remove(0);
Node r = list.remove(0);
Node n = creatHFM(l, r);
// 把新的节点添加到队列中
list.add(n);
// 排序
sort(list);
}
//根节点
Node root = list.get(0);
return root;
}
private static Node creatHFM(Node left, Node right) {
int fc = left.getFrequency() + right.getFrequency();
Node root = new Node(' ', fc);
root.setLeft(left);
root.setRight(right);
return root;
}
第四步是给每个字符编码,生成码表。
用递归遍历的方法生成每一个字符的编码,左0右1,并绑定字符保存,即新建一个类,依次保存到队列中。
/*
* 计算编码
*/
private static void creatCode(Node root, String str) {
// 若不是叶节点,递归遍历
if (root.getLeft() != null) {
creatCode(root.getLeft(), str + "0");
creatCode(root.getRight(), str + "1");
} else {// 否则输出,编码,并保存
count += root.getFrequency() * str.length();
System.out.println(root.getC() + " = " + str);
// 保存每一个字符及其编码,存入队列
Character chact = new Character(root.getC(), str);
codelist.add(chact);
}
}
在以上代码中所有的方法的参数输入由上一个方法的返回决定,更加方便梳理逻辑,查错。
构造方法及主函数,其中主函数中测试文件中的内容为string
public HFMtree(String path) throws IOException {
// 统计每个字符的频率
list = countFre(path);
// 根据每个字符的频率排序
sort(list);
// 构建哈夫曼二叉树,返回根节点
Node root = creat(list);
// 生成每一个字符的编码及带权路径。并保存编码
creatCode(root, "");
}
/*
* 主函数
*/
public static void main(String[] args) throws IOException {
// 文件路径
String str = "F:/text.txt";
// 文件的内容
// String string = "jfsjflvyavllcyqlcjhqvYV";
HFMtree hfm=new HFMtree(str);
System.out.print("带权路径=" + count);
}
测试结果
- 大小: 2.5 KB
分享到:
相关推荐
mypage文件可能包含了实现哈夫曼压缩和解压缩算法的C源代码文件,以及相关的测试数据或结果。通过阅读和理解这些代码,你可以深入学习哈夫曼编码的工作原理,以及如何在C语言中实现这一算法。同时,还可以了解到如何...
总之,哈夫曼压缩解压缩是数据压缩领域的一个重要方法,通过MFC和VC++,我们可以构建出直观且高效的压缩工具,便于学习和研究。在这个过程中,理解哈夫曼编码的原理、掌握MFC的使用以及实现压缩和解压缩的算法,都是...
《哈夫曼压缩》是一种广泛应用于数据压缩领域的高效算法,由大卫·艾尔·哈夫曼在1952年提出。它属于一种基于字符频率的无损压缩方法,特别适用于压缩那些存在大量重复字符的数据。哈夫曼编码是哈夫曼压缩的核心,...
在Java中实现哈夫曼压缩涉及到的主要步骤包括统计字节频率、构建哈夫曼树以及生成哈夫曼编码。首先,我们需要创建一个字节类(`NodeData`)来表示每个字节及其对应的权重(频率)。下面我们将详细讲解这些步骤: 1....
在Java中实现哈夫曼压缩和解压涉及到以下几个关键知识点: 1. **哈夫曼树**: 哈夫曼树(Huffman Tree)是一种带权路径长度最短的二叉树,也称为最优二叉树。它通过将频率较低的字符编码为较短的位序列,而频率较...
vc++哈夫曼压缩算法 vc++哈夫曼压缩算法
哈夫曼压缩是一种高效的数据压缩方法,它基于字符出现频率构建一种特殊的二叉树——哈夫曼树。在计算机科学中,尤其是信息处理和文件压缩领域,哈夫曼编码是广泛应用的技术之一。ASC II码是计算机中用8位二进制数...
在Java编程环境中实现哈夫曼压缩与解压缩程序,我们可以利用面向对象的特性,设计多个类来完成不同部分的功能。 1. **FileChooserDemo.java**:这是一个用户界面类,通常包含用于让用户选择输入和输出文件的控件。...
在C++中实现哈夫曼压缩和解压,主要涉及到数据结构(如优先队列、二叉树)和文件操作(读写)。`huffmain`可能是这个C++项目的主程序文件,其中可能包含了构建哈夫曼树、生成编码、压缩和解压等核心功能的实现。具体...
哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩源码.zip哈夫曼压缩与解压缩...
在C++中实现哈夫曼压缩软件,我们需要理解以下几个核心概念和技术: 1. **哈夫曼树**:哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。构建哈夫曼树的过程是通过合并频度最低的两个节点来逐渐构建整个...
本压缩包文件包含了一个可以直接运行的哈夫曼压缩与解压程序,是用C++语言编写的。C++是一种通用的、面向对象的编程语言,具有高效、灵活和丰富的库支持,非常适合实现这样的算法。 在压缩过程中,首先需要统计输入...
在Java中实现哈夫曼压缩涉及到以下几个关键步骤: 1. **统计字符频率**:首先,需要遍历输入文本,统计每个字符出现的次数,生成一个字符频率表。这是构建哈夫曼树的基础。 2. **构建哈夫曼树**:使用字符频率表,...
哈夫曼编码是一种高效的数据压缩方法,由大卫·哈夫曼在1952年提出。它是基于一种称为哈夫曼树(也叫最优二叉树)的数据结构。在这个课程设计中,你将深入理解哈夫曼编码的原理,并通过C++编程语言实现文件的压缩与...
哈夫曼压缩算法,全称为哈夫曼编码(Huffman Coding),是一种高效的无损数据压缩方法,由美国科学家大卫·艾尔·哈夫曼在1952年提出。它是基于字符频率(权重)构建最优二叉树的思想,通过创建一棵特殊的二叉树——...
在Java中实现哈夫曼压缩通常包括以下几个关键步骤: 1. **构建哈夫曼树**:首先,需要统计输入文本中每个字符出现的频率。然后,根据这些频率创建一个哈夫曼树。哈夫曼树是一种特殊的二叉树,其特点是叶子节点代表...
哈夫曼压缩是一种高效的数据编码方法,主要用于无损数据压缩,其原理是基于字符出现频率构建最优的二叉树(哈夫曼树),并以此进行编码。在C++实现哈夫曼压缩的过程中,我们需要理解以下几个关键知识点: 1. **...
在C++中实现哈夫曼压缩,我们需要理解以下几个关键知识点: 1. **哈夫曼树(Huffman Tree)**:哈夫曼树是一种特殊的二叉树,也称为最优二叉树,其叶子节点代表待编码的字符,非叶子节点表示字符的组合。树的构建...
哈弗曼编码(Huffman Coding)是一种数据压缩算法,由美国计算机科学家大卫·艾尔文·哈弗曼在1952年提出。这个算法基于一种称为“最优二叉树”(也称哈弗曼树)的数据结构,主要用于对频率不同的字符进行编码,从而...