`
星海孤舟
  • 浏览: 68989 次
  • 性别: Icon_minigender_1
  • 来自: 哈尔滨
社区版块
存档分类
最新评论

Unicode网页中上传下载文件时发生文件名乱码的问题 ,转载一部分和自己的体验

阅读更多

我的问题主要是下载时使用

name = new String(name.getBytes(), "UTF-8");

 

编码在本地好使,部署到服务器上乱码,于是改用了下面的代码:

String codedfilename = URLEncoder.encode("操作日志" + dateStrTemp + ".xls", "UTF8");
                response.setContentType("application/x-download");
                response.setHeader("Content-Disposition","attachment;filename=" + codedfilename);

 

在IE下好使,在火狐下乱码。

于是对不同浏览器采用了不同的方式进行处理

          String agent = request.getHeader("USER-AGENT");
            String dateStrTemp = DateFormatUtils.format(System.currentTimeMillis(), "yyyyMMddHHmmss");
            //如果客户端为IE浏览器,采用URLEncoder进行编码
            if (null != agent && -1 != agent.indexOf("MSIE"))
            {
                String codedfilename = URLEncoder.encode("操作日志" + dateStrTemp + ".xls", "UTF8");
                response.setContentType("application/x-download");
                response.setHeader("Content-Disposition","attachment;filename=" + codedfilename);
            }
            //如果客户端为火狐,采用MimeUtility进行编码
            else if (null != agent && -1 != agent.indexOf("Mozilla"))
            {   
            String codedfilename = MimeUtility.encodeText("操作日志" + dateStrTemp + ".xls", "UTF8", "B");
            response.setContentType("application/x-download");
            response.setHeader("Content-Disposition","attachment;filename=" + codedfilename);
            }

这样做之后就好用了。

 

下面是转载的别人关于文件上传下载编码的文章,感觉讲得很不错,就转过来了。

Unicode网页中上传下载文件时发生文件名乱码的问题

最近有一个需要支持unicode的项目在上传和下载文件时遇到文件名乱码问题. 项目背景, 这个项目关键之处在于需要支持unicode以及支持Micorosoft Internet Explorer和Netscape Navigator两种浏览器. 为了解决这个问题, 我使用以下环境进行了尝试.

J2SE : 1.5.0_04
Tomcat : 5.5.17
Microsoft Internet Explorer 6.0 with SP2
Netscape Navigator 7.1
Firefox 1.5
以及Struts 1.1 (这个基本上对此次测试不是非常重要)

上传文件

对于unicode的页面进行上传文件的时候, 我使用一个text box和一个file upload box来进行比较. 页面如下.

utf-8 upload page

 通过此页面进行文件上传后, IE, NC以及FF所传输的数据均相同. 如下

Content-Type: multipart/form-data; boundary=---------------------------282302224217945
Content-Length: 27980

-----------------------------282302224217945
Content-Disposition: form-data; name="theText"

C:\縺ゅ≠縺ゅ≠.xls
-----------------------------282302224217945
Content-Disposition: form-data; name="theFile"; filename="縺ゅ≠縺ゅ≠.xls"
Content-Type: application/vnd.ms-excel

可以看出, 对text box和file upload box中的文件名所有浏览器均采取了相同的编码. 经证实, 是上传页面的编码方式——所有浏览器均对unicode数据(utf-8)采取了本地的编码方式(这里是ms932).

在服务器端对上传的数据进行解码.

解码的方式有很多, 这里我使用最普遍以及正规的request.setCharacterEncoding的方法. 发现form表单中的text box可以被正常解码, 但是file upload box中的文件名无法通过这种方式解码. 所以只能使用手工解码.

String fixedFileName = new String(fileName.getBytes("SJIS"), "UTF-8");

其中SJIS是客户端系统的编码, UTF-8是客户端页面的编码.

上传文件测试中, 所有浏览器表现一致, 需要注意的是文件名和表单数据的不同处理方式.

下载文件

使用一个unicode的JSP页面, 在页面上有一个固定的超链接, 传递给服务器一个文件名. 服务器依照这个文件名把服务器端的文件传递给客户端.

下载页面

<%@ page language="java" contentType="text/html; charset=utf-8"%>

<meta http-equiv="content-type" content="text/html; charset=utf-8">

<href="download.do?name=ああああ.xls">ダウンロード</a>

对于这样一个页面, 当点击超链接后, 各浏览器处理方式不同

IE会把超链接依照页面当前编码方式编码(这里是utf-8)后, 发送给服务器端

GET /nsupload/download.do?name=縺ゅ≠縺ゅ≠.xls HTTP/1.1

NC和FF会把超链接依照页面编码方式编码(这里是utf-8)后, 再通过url encoding后, 发送给服务器端

GET /nsupload/download.do?name=%E3%81%82%E3%81%82%E3%81%82%E3%81%82.xls HTTP/1.1

(经证实, E38182是「あ」的unicode代码)

在服务器收到提交的数据后, 需要对其进行解码. 需要注意的是这种方式下使用request.setCharacterEncoding无效. 所以必须手工解码.

name = new String(name.getBytes("ISO-8859-1"), "UTF-8");

其中ISO-8859-1是Tomcat服务器的特性, Tomcat会把所有的数据先转换为ISO-8859-1的形式. UTF-8是实际的编码方式.

在得到文件名后, 就可以正确地读取文件, 然后把文件传递给客户端了. 其中, 文件名是保存在Http报头(header)的Content-Disposition中.

response.setHeader("Content-Disposition""inline; filename=" + _filename);
//或者
response.setHeader("Content-Disposition""attachment; filename=" + _filename);

经实验证明, 使用inline或者attachment对文件名的编码方式没有影响.

另外一个需要设置的是Content-Type.

response.setContentType("application/vnd.ms-excel");
//或者
response.setContentType("application/vnd.ms-excel; charset=UTF-8");
//或者
response.setContentType("application/x-download; name=" + _filename);

经试验证明, 使用application/*的任何形式都对文件名的编码方式没有影响.
第二点, 经试验证明, 这里的charset设置会被三种浏览器忽略, 所以设置与否影响文件名的编码方式.
第三点, 经试验证明, 这里的name设置对文件名没有任何影响.

可能还有一个属性需要注意, 就是Content-Language. 经试验证明, Content-Language有无, 或者为何值, 对文件名没有任何影响.

那么对于non-ascii的文件名如何操作才可以保证客户端可以得到正确的显示呢?

经过调查, 有三种方法(在网上搜索后认为可能这篇文章是对于这个问题探讨最深入的文章)

第一, 使用URLEncoding方法. 即对文件名进行URLEncoding.

name = URLEncoder.encode(name, "UTF-8");


这种方式适用于IE, 但是不适用于NC和FF. 在这种方式下, 网络上传输的是url encoding后的ascii编码.

Content-Disposition: inline; filename=%E3%81%82%E3%81%82%E3%81%82%E3%81%82.xls

NC和FF不能对这样的文件名进行有效的解码.

NC download

FF download

第二, 使用字符串字符集强行转换为本地字符集方法, 这样做的原理是JVM底层全部为unicode. 所以一旦一个字符串表示了正确的字符集而被存储后, 这个字符串会被转换为任意字符集.

原理二是, IE和FF对非url encoding的non-ascii文件名采用客户端系统本地的编码方式进行转换.

name = new String(name.getBytes("Shift_JIS"), "ISO-8859-1");

需要注意的是, 这里的name原本是utf-8的.

在网络上传输的为

Content-Disposition: inline; filename=ああああ.xls


经过试验, IE和FF支持这种方式, NC不支持. 表现为NC无法解析文件名.

第三种, 使用Base64编码文件名. 原理是这种做法符合RFC2047的定义.

name = javax.mail.internet.MimeUtility.encodeText(name, "UTF-8""B");

使用到了JavaMail中的Base64编码的类MimeUtility.

在网络上传输的为经过Base64编码的ascii字符.

Content-Disposition: inline; filename==?UTF-8?B?44GC44GC44GC44GCLnhscw==?=

只有FF支持这种方式, IE表现为无法解析文件名, NC表现为忽略Base64编码.

NC base64 download

IE Base64 download

以上三种方法是目前来讲, 使浏览器可以正确下载non-ascii文件名的方法. 其中IE支持两种(url encoding和force transform), FF支持两种(force transform和base64 encoding), NC一种都不支持.

关于这次调查的结果, 对于NC多说两句, 我以为这个结果是由于NC 7.1和Tomcat 5.5不兼容造成的. Tomcat 5.5要求必须把所有报头先转变为ISO-8859-1的格式, 而NC 7.1却无法直接对ISO-8859-1进行正确的解析或者说是解析功能比较弱. 如果有时间, 我会继续验证非unicode的情况以及NC 8的情况.


---2006年9月14日21:00 补充---

在NC 8.1上进行了测试, 测试结果是NC 8.1支持方法三, 即base64 encoding.
http://www.blogjava.net/zamber/archive/2006/09/14/69752.html
http://forum.java.sun.com/thread.jspa?threadID=696263
分享到:
评论

相关推荐

    zip库(解决文件名中文乱码问题).zip

    在IT行业中,文件处理是日常工作中不可或缺的一部分,尤其是在涉及到压缩文件如ZIP时。"zip库(解决文件名中文乱码问题).zip" 提供了一个针对C++编程语言的解决方案,专门用于处理ZIP文件中中文文件名的乱码问题。这...

    linux下的文件名乱码,转为正常

    在Linux系统中,由于字符编码的问题,我们可能会遇到文件名显示为乱码的情况。...通过上述方法,你应该能够有效地处理和避免文件名乱码问题,确保文件管理的顺利进行。记得在操作过程中要谨慎,避免误改重要文件。

    解决jsmartcom中文文件名上传与下载乱码问题

    然而,当涉及到非英文的文件名,特别是中文文件名时,可能会出现编码问题,导致上传或下载过程中出现乱码。这个问题主要源于不同的字符编码格式不兼容,如UTF-8和GBK之间的转换不当。 首先,我们需要理解JavaScript...

    文件下载response.setHeader()下载中文文件名乱码问题解决办法.pdf

    在IT领域,尤其是Web开发中,文件下载是一个常见的功能,而处理中文文件名乱码问题则是一个常见的挑战。本篇主要探讨如何解决使用`response.setHeader()`方法下载中文文件名时出现的乱码问题,以及与之相关的HTTP...

    win11、win10中文文件名称乱码(菱形黑框问号)解决方案.docx

    针对Win11和Win10系统中的中文文件名乱码问题,我们提供以下解决方案: ##### 步骤1:打开区域设置 - 使用快捷键`Win+R`调出运行对话框,输入`intl.cpl`,回车打开“区域”设置窗口。 - 或者在Windows搜索栏中输入...

    SAS EG导入UTF-8编码的文本数据文件时的乱码问题解决方法

    在使用SAS EG(Enterprise Guide)导入编码为UTF-8的文本数据文件时,用户可能会遇到中文乱码问题。UTF-8编码的文本文件在处理中文字符时,如果没有正确设置编码,可能会导致中文字符显示不正确,即出现乱码现象。...

    Android读取中文文件乱码解决方法

    当我们在Android应用程序中读取文件时,如果不指定正确的字符编码,就会导致乱码问题的发生。 #### 三、解决策略 为了有效解决中文乱码问题,我们需要采取以下几种策略: 1. **识别文件的编码格式**:首先需要...

    Python转译日文乱码(文件名)

    在IT领域,尤其是在编程和文件处理中,字符编码问题是一个常见的挑战。本案例涉及的是一个用Python编写的程序,用于解决日文文件名在非兼容的编码环境下显示为乱码的问题。这个程序允许用户通过拖放操作将乱码的日文...

    smartUpload上传文件包修改后解决中文乱码

    本文将深入探讨SmartUpload上传文件时如何解决中文乱码的问题。 首先,我们要理解乱码产生的原因。在计算机系统中,不同的文件系统和编程语言可能使用不同的字符编码标准,如ASCII、GBK、UTF-8等。如果在读取或写入...

    C#解压文件,中文不乱码

    在C#编程中,处理ZIP压缩文件是一项常见的任务,尤其是当你需要读取或写入包含中文文件名的压缩包时,正确处理字符编码至关...通过正确设置编码和使用适当的API,可以确保C#程序解压ZIP文件时中文文件名不出现乱码。

    Linux中文乱码问题.pdf

    Linux系统中的中文乱码问题是一个常见的问题,主要发生在系统、终端、文件及网页浏览时。解决中文乱码问题,首先需要了解字符编码的基础知识和Linux系统中的locale设置。 字符编码是指用数字来表示字符和符号的方法...

    Unicode码转中文和中文转Unicode码的最简便的方法

    中文转Unicode码和Unicode码转中文的过程在Java环境下可以通过`native2ascii`工具轻松实现,这个工具是Java开发工具包(JDK)的一部分。 **中文转Unicode码**: 1. 首先,你需要确保已经安装了Java JDK。JDK包含了...

    Asp.net中的页面乱码的问题

    文件下载时指定文件名的乱码问题 对于文件下载时指定文件名出现乱码的情况,可以参考以下代码: ```csharp Response.AddHeader("Content-Disposition", "attachment; filename=" + HttpUtility.UrlEncoding...

    Servlet中的中文乱码问题

    总之,解决Servlet中的中文乱码问题,需要从请求、响应、页面、文件上传、数据库等多个角度综合考虑,确保每个环节的字符编码一致且正确。在现代开发环境中,推荐使用UTF-8作为统一的编码标准,因为它支持的字符范围...

    中文 乱码.rar 解决文档

    在使用电脑时,我们经常会遇到一个头疼的问题,那就是“中文乱码”。这通常是由于编码不兼容或者处理方式不当导致的,特别是在处理压缩包文件(如RAR格式)时。本篇文档将详细介绍如何解决中文乱码问题,以确保你能...

    FileZilla Server解决中文乱码版

    FileZilla Server是一款开源、免费的FTP服务器软件,它提供了强大的文件传输功能,广泛应用于个人和企业环境中。在处理中文文件名或目录名时,可能会遇到中文乱码的问题,这通常是由于字符编码设置不正确导致的。...

    解决flask接口返回的内容中文乱码的问题

    在Flask中通过`request.files.get('file')`获取上传文件时,如果文件内容中包含中文字符,可能会出现乱码现象。 **2. 原因分析** - **文件对象编码问题**:默认情况下,文件对象在读取数据时没有明确的编码方式,...

    Xcode 打印中文乱码

    在Xcode开发过程中,遇到“打印中文乱码”的问题,通常是由于编码设置不正确或输出方式不兼容中文字符集导致的。以下是一些关键的知识点,帮助你解决这个问题: 1. **编码格式**:首先,确保你的项目源代码文件使用...

    SendMessage发送拖拽消息++Unicode和ANSIC的文件.zip

    本文将深入探讨如何使用SendMessage函数在易语言中发送拖拽消息,同时解决Unicode和ANSI编码文件名的问题。 SendMessage函数是Windows API中的一个重要组成部分,它允许我们在程序之间传递消息,包括模拟用户的操作...

    易语言UNICODE解决方法源码

    6. **源码组织和注释**:为了保持代码的可读性和可维护性,源码中应该清晰地标识出处理Unicode的部分,并提供足够的注释说明其工作原理和目的。 在`content.txt`这个文件中,可能包含了实现以上方法的具体源代码。...

Global site tag (gtag.js) - Google Analytics