`
riching
  • 浏览: 263171 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

java压缩zip文件中文乱码问题

阅读更多
用java来打包文件生成压缩文件,有两个地方会出现乱码
1、内容的中文乱码问题,这个问题网上很多人给出了解决方法,两种:修改sun的源码;使用开源的类库org.apache.tools.zip.ZipOutputStream和org.apache.tools.zip.ZipEntry,这两个类ant.jar中有,可以下载使用即可,毫无疑问,选择后者更方便
2、压缩文件注释的中文乱码问题:zos.setComment("中文测试");这个问题在网上查了半天没看到有人解释,遂只能自己想办法解决。在自己机器上的工程创建的测试类,没有任何问题,但是在公司的项目中使用一直出现乱码,通过使用设置编码的方法(zos.setEncoding("gbk");)终于发现了问题,测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题。

org.apache.tools.zip.ZipOutputStream默认使用项目的编码方式,理论上讲utf-8也是支持中文的,是在想不通为啥还是乱码,通过setEncoding方法改成gbk即可解决

附上一段压缩文件的代码
package com.compress;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.DataInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;

import org.apache.tools.zip.ZipEntry;
import org.apache.tools.zip.ZipOutputStream;

public class CompressEncodingTest {

	/**
	 * @param args
	 * @throws Exception
	 */
	public static void main(String[] args) throws Exception {
		File f = new File("中文测试.txt");
		ZipOutputStream zos = new ZipOutputStream(new BufferedOutputStream(
				new FileOutputStream("zipTest.zip"), 1024));
		zos.putNextEntry(new ZipEntry("中国人.txt"));
		DataInputStream dis = new DataInputStream(new BufferedInputStream(
				new FileInputStream(f)));
		zos.putNextEntry(new ZipEntry(f.getName()));
		int c;
		while ((c = dis.read()) != -1) {
			zos.write(c);
		}

		zos.setEncoding("gbk");
		zos.setComment("中文测试");

		zos.closeEntry();
		zos.close();
	}

}
分享到:
评论
6 楼 dabing69221 2013-12-23  
riching 写道
大神你牛逼,受教了,我这种不求甚解的习惯要改,谢谢
dabing69221 写道
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

    protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵


呵呵
5 楼 riching 2013-12-02  
大神你牛逼,受教了,我这种不求甚解的习惯要改,谢谢
dabing69221 写道
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

    protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵

4 楼 dabing69221 2013-12-01  
楼主说“测试项目的编码方式为gbk,而公司项目的默认编码是utf-8,所以测试项目没问题而公司的项目中出现了问题 ”楼主这么分析也对,但是不全面,下面我给楼主分析一下出错原因:
通过org.apache.tools.zip.ZipOutputStream类的源码,我们看到这么一个方法,没错下面这个方法就是幕后真凶:

    protected byte[] getBytes(String name)
        throws ZipException
    {
        if(encoding == null)
            return name.getBytes();
        return name.getBytes(encoding);
        UnsupportedEncodingException uee;
        uee;
        throw new ZipException(uee.getMessage());
    }
以上这句代码,就是将我们的文件名的字符变为字节,(这里变为字节的目的就是为了通过字节流把字节写出去) 这里判断了一下encoding是否为空,楼主如果不写encoding的话,就会执行name.getByte()也就是使用平台的默认字符集将此 String 编码为 byte 序列,并将结果存储到一个新的 byte 数组中。(这里使用平台的默认字符集就是楼主所在项目的编码),假如说这里项目所在编码为UTF-8,那么这里就会自动将文件名的字符转换为UTF-8的字节,然后写入到底层输出流。

当我们双击打开那个压缩的zip文件时,程序就会使用ANSI编码(通常指的是平台的默认编码,例如英文操作系统中是ISO-8859-1,中文系统是GBK)。别忘了,我们写文件的时候使用UTF-8的编码来写文件名的,这个时候-- 奇迹出现了“乱码”,为什么呢? GBK每个汉字占2个字节,而UTF-8每个汉字占3个字节,它们所占字节数都不一样,乱码是必须的,这下楼主知道为什么你的程序老是乱码了吗? 呵呵呵
3 楼 dabing69221 2013-12-01  
楼主,我给你分析一下,你的压缩zip包为什么会乱码?
分析原因:
  我们在使用JDK自带的ZipOutputStream压缩文件时,压缩文件没有采用英文命名时,没有问题。如果采用中文命令就会出现问题,为什么会这样呢?我们来看看ZipOutputStream源码,它到底是怎么把文件名转换为字节的?
  private static byte[] getUTF8Bytes(String s)
    {
        char ac[] = s.toCharArray();
        int i = ac.length;
        int j = 0;
        for(int k = 0; k < i; k++)
        {
            char c = ac[k];
            if(c <= '\177')
            {
                j++;
                continue;
            }
            if(c <= '\u07FF')
                j += 2;
            else
                j += 3;
        }

        byte abyte0[] = new byte[j];
        int l = 0;
        for(int i1 = 0; i1 < i; i1++)
        {
            char c1 = ac[i1];
            if(c1 <= '\177')
            {
                abyte0[l++] = (byte)c1;
                continue;
            }
            if(c1 <= '\u07FF')
            {
                abyte0[l++] = (byte)(c1 >> 6 | 192);
                abyte0[l++] = (byte)(c1 & 63 | 128);
            } else
            {
                abyte0[l++] = (byte)(c1 >> 12 | 224);
                abyte0[l++] = (byte)(c1 >> 6 & 63 | 128);
                abyte0[l++] = (byte)(c1 & 63 | 128);
            }
        }

        return abyte0;
    }
以上这个方法就是JDK自带的ZipOutputStream类中将文件名装换为字节的方法,通过源码我们不难看出,它是先将String变为char[]数组,然后通过遍历char[]数组,最后将char强转为byte,存放到byte数组中。
  如果这样做的话,就暴露了一个问题,就是楼主所说的“中文乱码”问题,为什么呢? 因为在Java中,一个char是2个字节(byte),而一个中文汉字是一个字符,也就是2个字节;英文字母是一个字节,所以,一个英文字母可以保存到 一个字节(byte)中,而一个中文汉字不能(道理很简单啊,一个汉字是2个字节) --- 所以说这就是为什么保存英文的文件名是不会乱码,但是保存中文的文件名时会乱码的原因。
2 楼 riching 2010-06-06  
xiaohahaa 写道
不使用外部包,只用jdk内部的类,能不能实现?

能实现,不过中文的文件名和中文的注释(comment)会乱码,内容没问题
1 楼 xiaohahaa 2010-06-05  
不使用外部包,只用jdk内部的类,能不能实现?

相关推荐

    java压缩zip文件解决中文乱码问题

    总结来说,处理Java中ZIP文件的中文乱码问题,关键在于明确指定字符集,通常是UTF-8,无论是使用Java内置的API还是第三方库。同时,理解文件系统的编码和压缩/解压过程中的字符编码转换也非常重要。通过这种方式,...

    解决java压缩zip文件时的中文乱码问题(包含jar包和工具类)

    解决java压缩zip文件时的中文乱码问题 实现:java压缩文件成zip实现无乱码。 包括:写好的工具类与jar包。 使用方法:导入ant.jar包,调用CompressExcelOperate中的方法,即可实现压缩文件,并保证没有中文乱码...

    java zip压缩解压工具解决中文乱码问题

    在Java编程中,处理压缩和解压缩ZIP文件是一项常见的任务,尤其当文件中包含中文字符时,可能会遇到中文乱码的问题。这是因为Java的标准库在处理非ASCII编码时可能存在不足。本篇文章将详细介绍如何使用Java标准库...

    java android zip解压缩(解决压缩中文乱码问题)

    本篇文章将深入探讨如何在Android平台上解决Java ZIP库在解压缩中文文件时出现的乱码问题。 首先,我们要明白乱码问题的根源。在文件的压缩和解压缩过程中,文件名通常被编码为字节序列,这个序列取决于原始文件名...

    java压缩zip文件中文乱码问题解决方法

    总之,解决Java压缩ZIP文件中文乱码问题的关键在于使用支持设置编码的第三方库,并在处理中文内容和注释时明确指定正确的字符编码。这样,无论在何种编码环境中,都能确保中文字符正确无误地被压缩和解压。

    java zip解压中文乱码问题

    网上很多描述java解压中文乱码的问题,很多描述不全.由于工作需要整理出一个完整版.简单实用.下载后请从ZipUtil.java的main方法开始,一目了然. public static void main(String args[]) { new ZipUtil().unZip("E:\\...

    文件解压和压缩 解决中文乱码

    这里我们关注的是“文件解压和压缩”以及处理“中文乱码”的问题。在Java编程语言中,提供了多种库和工具来处理这些问题。 首先,`CompresszZipFile`是一个可能的自定义类或方法,它专门用于处理ZIP文件的解压。在...

    解压zip压缩文件,支持多文件目录解压,中文乱码问题

    在使用Java对ZIP压缩文件进行解压的方式中有两种,一种是使用apache提供的ant.jar工具包,但是如果ZIP文件中含有中文名称的文件,在解压后,文件名将出现乱码,另一种是使用Java自身JDK中java.util.zip包下工具类,...

    基于Java向zip压缩包追加文件

    当需要向已存在的ZIP文件追加文件时,首先使用`ZipUtil`解压缩ZIP文件到一个临时目录,然后在该目录中添加新的文件,最后重新压缩整个目录并覆盖原有的ZIP文件。以下是大致的步骤: - 使用`ZipUtil`的`unzip`方法...

    Java压缩和解压缩zip文件

    本篇文章将详细探讨如何使用Java内置的类库来实现ZIP文件的压缩和解压缩,以及解决中文文件名出现乱码的问题。 首先,我们要了解Java中处理ZIP文件的核心类:`java.util.zip.ZipOutputStream` 和 `java.util.zip....

    ZipOutputStream 压缩文件以及乱码问题解决方案

    在IT行业中,文件压缩是一种常见的数据存储和传输方式,ZipOutputStream是Java标准库中的一个类,用于将数据流写入ZIP格式的压缩文件。本文将深入探讨如何使用ZipOutputStream进行文件压缩,并解决可能出现的乱码...

    java解决压缩中文乱码

    以下将详细阐述如何解决Java压缩中文乱码问题。 首先,我们要理解为什么会出现乱码。在Java中,`java.util.zip`类库使用的是默认的平台字符集,而不是通用的Unicode(UTF-8)编码。因此,如果源文件包含中文字符且...

    ZipUtil文件压缩工具类(解决中文乱码)

    此外,`ZipUtil`类可能还包含其他实用功能,比如解压缩ZIP文件,检查ZIP文件是否存在中文乱码,或者提供配置选项以自定义压缩级别、是否保留原文件的最后修改时间等。 总之,`ZipUtil`文件压缩工具类通过结合`Zip...

    用java对文件进行压缩并且解决乱码问题

    总的来说,使用Java的`ZipOutputStream`进行文件压缩时,必须注意文件名和路径的正确编码,以避免乱码问题。通过使用合适的编码方式(如UTF-8)并在`ZipOutputStream`构造函数中明确指定,可以确保在跨平台操作时...

    JDK ZipEntry压缩中文文件名乱码解决

    项目中碰到问题.jdk zipEntry 压缩中文文件名乱码  上网查了下,有两种方法,一种修改jdk ZipInputStream及ZipOutputStream 的源文件,比较麻烦,不建议此项.  第二种 就是拿来主义,因为 开源项目 Ant 里已经有...

    java zip文件压缩与解压缩

    总结来说,Java中使用Apache Commons Compress库进行ZIP文件操作,不仅提供了更丰富的功能,如设置字符编码,还能有效处理中文等非ASCII字符,保证了在处理多语言环境下的文件时不会出现乱码问题。通过上述方法,...

    java压缩(zip)中文问题完美解决

    此外,如果你在其他Java压缩库或API中遇到类似问题,可以考虑采用类似的方法,即明确指定编码方式,比如在使用`java.util.zip`时,可以使用`ZipOutputStream`的`setEncoding()`方法来指定编码。但是,通常情况下,...

    zip解压缩乱码的解决方案

    然而,当我们在解压缩ZIP文件时,有时会遇到“乱码”的问题,这通常是由于编码不兼容或者设置不当导致的。本文将深入探讨ZIP解压缩乱码的解决方案,帮助你解决这个问题。 1. **理解字符编码** - 字符编码是计算机...

    读取zip文件,不解压缩直接解析,支持文件名中文,解决内容乱码(还是以支付宝对账单为例)

    本文将深入探讨如何在不解压的情况下直接读取ZIP文件,并特别关注如何处理包含中文文件名和内容乱码的问题。我们将以支付宝对账单为例,因为这类文件通常包含大量敏感和重要的财务信息,正确地读取和解析它们至关...

    org.apache.tools.zip解决解压乱码问题

    * 描述:压缩/解压缩zip包处理类 * 创建者:XXX * 创建日期:2015年5月7日 - 下午1:35:02 * 版本: V0.1 * 修改者: * 修改日期: */ public class ZipUtil { /** * * ...

Global site tag (gtag.js) - Google Analytics