`

Java正确判别出文件的字符集(尤其是带BOM和不带BOM的UTF-8字符)

    博客分类:
  • JAVA
 
阅读更多

Java正确判别出文件的字符集(尤其是带BOM和不带BOM的UTF-8字符)

前几天在项目中需要读取用户上传过来的txt文件,但不确定txt文件的字符集

UTF-16、UTF-8(带BOM)、Unicode可以根据前三个字节区别 

 

[java] view plaincopy
 
  1. public String getTxtEncode(FileInputStream in) throws IOException{  
  2.         byte[] head = new byte[3];    
  3.         in.read(head);      
  4.         String code = "GBK";    
  5.         if (head[0] == -1 && head[1] == -2 )    
  6.             code = "UTF-16";    
  7.         if (head[0] == -2 && head[1] == -1 )    
  8.             code = "Unicode";  
  9.         //带BOM  
  10.         if(head[0]==-17 && head[1]==-69 && head[2] ==-65)    
  11.             code = "UTF-8";    
  12.         if("Unicode".equals(code)){  
  13.          code = "UTF-16";  
  14.         }  
  15.         return code;  
  16.  }  

 

但不带BOM的UTF-8和GBK前三个字节不确定,用以上方法无法区别

 

通过在google上搜索发现不带BOM的识别是Java遗留的一个bug,呵呵,终于找到根源了,Java提供了此bug的解决方案

[java] view plaincopy
 
  1. package com.justsy.sts.utf8;  
  2.   
  3. import java.io.*;    
  4.   
  5. /**  
  6.  * This inputstream will recognize unicode BOM marks and will skip bytes if  
  7.  * getEncoding() method is called before any of the read(...) methods.  
  8.  *   
  9.  * Usage pattern: String enc = "ISO-8859-1"; // or NULL to use systemdefault  
  10.  * FileInputStream fis = new FileInputStream(file); UnicodeInputStream uin = new  
  11.  * UnicodeInputStream(fis, enc); enc = uin.getEncoding(); // check and skip  
  12.  * possible BOM bytes InputStreamReader in; if (enc == null) in = new  
  13.  * InputStreamReader(uin); else in = new InputStreamReader(uin, enc);  
  14.  */    
  15. public class UnicodeInputStream extends InputStream {    
  16.     PushbackInputStream internalIn;    
  17.     boolean isInited = false;    
  18.     String defaultEnc;    
  19.     String encoding;    
  20.     
  21.     private static final int BOM_SIZE = 4;    
  22.     
  23.     public UnicodeInputStream(InputStream in, String defaultEnc) {    
  24.         internalIn = new PushbackInputStream(in, BOM_SIZE);    
  25.         this.defaultEnc = defaultEnc;    
  26.     }    
  27.     
  28.     public String getDefaultEncoding() {    
  29.         return defaultEnc;    
  30.     }    
  31.     
  32.     public String getEncoding() {    
  33.         if (!isInited) {    
  34.             try {    
  35.                 init();    
  36.             } catch (IOException ex) {    
  37.                 IllegalStateException ise = new IllegalStateException(    
  38.                         "Init method failed.");    
  39.                 ise.initCause(ise);    
  40.                 throw ise;    
  41.             }    
  42.         }    
  43.         return encoding;    
  44.     }    
  45.     
  46.     /**  
  47.      * Read-ahead four bytes and check for BOM marks. Extra bytes are unread  
  48.      * back to the stream, only BOM bytes are skipped.  
  49.      */    
  50.     protected void init() throws IOException {    
  51.         if (isInited)    
  52.             return;    
  53.     
  54.         byte bom[] = new byte[BOM_SIZE];    
  55.         int n, unread;    
  56.         n = internalIn.read(bom, 0, bom.length);    
  57.     
  58.         if ((bom[0] == (byte0x00) && (bom[1] == (byte0x00)    
  59.                 && (bom[2] == (byte0xFE) && (bom[3] == (byte0xFF)) {    
  60.             encoding = "UTF-32BE";    
  61.             unread = n - 4;    
  62.         } else if ((bom[0] == (byte0xFF) && (bom[1] == (byte0xFE)    
  63.                 && (bom[2] == (byte0x00) && (bom[3] == (byte0x00)) {    
  64.             encoding = "UTF-32LE";    
  65.             unread = n - 4;    
  66.         } else if ((bom[0] == (byte0xEF) && (bom[1] == (byte0xBB)    
  67.                 && (bom[2] == (byte0xBF)) {    
  68.             encoding = "UTF-8";    
  69.             unread = n - 3;    
  70.         } else if ((bom[0] == (byte0xFE) && (bom[1] == (byte0xFF)) {    
  71.             encoding = "UTF-16BE";    
  72.             unread = n - 2;    
  73.         } else if ((bom[0] == (byte0xFF) && (bom[1] == (byte0xFE)) {    
  74.             encoding = "UTF-16LE";    
  75.             unread = n - 2;    
  76.         } else {    
  77.             // Unicode BOM mark not found, unread all bytes    
  78.             encoding = defaultEnc;    
  79.             unread = n;    
  80.         }    
  81.         // System.out.println("read=" + n + ", unread=" + unread);    
  82.     
  83.         if (unread > 0)    
  84.             internalIn.unread(bom, (n - unread), unread);    
  85.     
  86.         isInited = true;    
  87.     }    
  88.     
  89.     public void close() throws IOException {    
  90.         // init();    
  91.         isInited = true;    
  92.         internalIn.close();    
  93.     }    
  94.     
  95.     public int read() throws IOException {    
  96.         // init();    
  97.         isInited = true;    
  98.         return internalIn.read();    
  99.     }    
  100. }  

通过使用上述InputStream类的实现可以正确的读取出不带BOM和带BOM的字符集

[java] view plaincopy
 
  1. package com.justsy.sts.utf8;  
  2.   
  3. import java.io.BufferedReader;    
  4. import java.io.File;    
  5. import java.io.FileInputStream;    
  6. import java.io.IOException;    
  7. import java.io.InputStreamReader;  
  8. import java.nio.charset.Charset;  
  9.     
  10. public class UTF8Test {    
  11.     public static void main(String[] args) throws IOException {    
  12.         File f  = new File("D:"+File.separator+"Order.txt");    
  13.         FileInputStream in = new FileInputStream(f);    
  14.         String dc  = Charset.defaultCharset().name();  
  15.         UnicodeInputStream uin = new UnicodeInputStream(in,dc);  
  16.         BufferedReader br = new BufferedReader(new InputStreamReader(uin));    
  17.         String line = br.readLine();    
  18.         while(line != null)    
  19.         {    
  20.             System.out.println(line);    
  21.             line = br.readLine();    
  22.         }    
  23.     }    
  24. }  


结合Java提供的方案,我们就可以比较完整的判别出各种字符集了

[java] view plaincopy
 
  1. public String getTxtEncode(FileInputStream in) throws IOException{  
  2.    
  3.  String dc  = Charset.defaultCharset().name();  
  4.        UnicodeInputStream uin = new UnicodeInputStream(in,dc);  
  5.          
  6.        if("UTF-8".equals(uin.getEncoding())){  
  7.         uin.close();  
  8.         return "UTF-8";  
  9.        }  
  10.        uin.close();  
  11.          
  12.        byte[] head = new byte[3];    
  13.        in.read(head);      
  14.        String code = "GBK";    
  15.        if (head[0] == -1 && head[1] == -2 )    
  16.            code = "UTF-16";    
  17.        if (head[0] == -2 && head[1] == -1 )    
  18.            code = "Unicode";  
  19.        //带BOM  
  20.        if(head[0]==-17 && head[1]==-69 && head[2] ==-65)    
  21.            code = "UTF-8";    
  22.        if("Unicode".equals(code)){  
  23.         code = "UTF-16";  
  24.        }  
  25.        return code;  
  26. }  

本文的转载地址为:http://blog.csdn.net/tibib/article/details/7988735

分享到:
评论

相关推荐

    java获取文件编码(判断有无BOM)

    BOM是UTF-8、UTF-16和UTF-32等编码格式中的一个可选标记,用于告知解析器文件的编码类型。例如,UTF-8的BOM是三个字节(0xEF, 0xBB, 0xBF),而UTF-16LE和UTF-16BE的BOM分别是两个字节(0xFF, 0xFE)和(0xFE, 0xFF...

    C#实现获取文本文件的编码的一个类(区分GB2312和UTF8)

    在C#编程语言中,处理文本文件时,了解文件的编码格式至关重要,因为不同的编码方式会影响到字符的正确读取和解析。本篇将介绍如何使用C#编写一个类来检测文本文件的编码,特别是区分GB2312(简体中文GBK编码)和UTF...

    pandas-1.3.5-cp37-cp37m-macosx_10_9_x86_64.zip

    pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。

    基于java的大学生兼职信息系统答辩PPT.pptx

    基于java的大学生兼职信息系统答辩PPT.pptx

    基于java的乐校园二手书交易管理系统答辩PPT.pptx

    基于java的乐校园二手书交易管理系统答辩PPT.pptx

    tornado-6.4-cp38-abi3-musllinux_1_1_i686.whl

    tornado-6.4-cp38-abi3-musllinux_1_1_i686.whl

    Android Studio Ladybug(android-studio-2024.2.1.10-mac.zip.002)

    Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175

    基于ssm框架+mysql+jsp实现的监考安排与查询系统

    有学生和教师两种角色 登录和注册模块 考场信息模块 考试信息模块 点我收藏 功能 监考安排模块 考场类型模块 系统公告模块 个人中心模块: 1、修改个人信息,可以上传图片 2、我的收藏列表 账号管理模块 服务模块 eclipse或者idea 均可以运行 jdk1.8 apache-maven-3.6 mysql5.7及以上 tomcat 8.0及以上版本

    tornado-6.1b2-cp38-cp38-macosx_10_9_x86_64.whl

    tornado-6.1b2-cp38-cp38-macosx_10_9_x86_64.whl

    Android Studio Ladybug(android-studio-2024.2.1.10-mac.zip.001)

    Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175

    基于MATLAB车牌识别代码实现代码【含界面GUI】.zip

    matlab

    基于java的毕业生就业信息管理系统答辩PPT.pptx

    基于java的毕业生就业信息管理系统答辩PPT.pptx

    基于Web的毕业设计选题系统的设计与实现(springboot+vue+mysql+说明文档).zip

    随着高等教育的普及和毕业设计的日益重要,为了方便教师、学生和管理员进行毕业设计的选题和管理,我们开发了这款基于Web的毕业设计选题系统。 该系统主要包括教师管理、院系管理、学生管理等多个模块。在教师管理模块中,管理员可以新增、删除教师信息,并查看教师的详细资料,方便进行教师资源的分配和管理。院系管理模块则允许管理员对各个院系的信息进行管理和维护,确保信息的准确性和完整性。 学生管理模块是系统的核心之一,它提供了学生选题、任务书管理、开题报告管理、开题成绩管理等功能。学生可以在此模块中进行毕业设计的选题,并上传任务书和开题报告,管理员和教师则可以对学生的报告进行审阅和评分。 此外,系统还具备课题分类管理和课题信息管理功能,方便对毕业设计课题进行分类和归档,提高管理效率。在线留言功能则为学生、教师和管理员提供了一个交流互动的平台,可以就毕业设计相关问题进行讨论和解答。 整个系统设计简洁明了,操作便捷,大大提高了毕业设计的选题和管理效率,为高等教育的发展做出了积极贡献。

    机器学习(预测模型):2000年至2015年期间193个国家的预期寿命和相关健康因素的数据

    这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制

    基于微信小程序的高校毕业论文管理系统小程序答辩PPT.pptx

    基于微信小程序的高校毕业论文管理系统小程序答辩PPT.pptx

    基于java的超市 Pos 收银管理系统答辩PPT.pptx

    基于java的超市 Pos 收银管理系统答辩PPT.pptx

    基于java的网上报名系统答辩PPT.pptx

    基于java的网上报名系统答辩PPT.pptx

    基于java的网上书城答辩PPT.pptx

    基于java的网上书城答辩PPT.pptx

    婚恋网站 SSM毕业设计 附带论文.zip

    婚恋网站 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B

    基于java的戒烟网站答辩PPT.pptx

    基于java的戒烟网站答辩PPT.pptx

Global site tag (gtag.js) - Google Analytics