`

Java正确判别出文件的字符集(尤其是带BOM和不带BOM的UTF-8字符)

    博客分类:
  • JAVA
 
阅读更多

Java正确判别出文件的字符集(尤其是带BOM和不带BOM的UTF-8字符)

前几天在项目中需要读取用户上传过来的txt文件,但不确定txt文件的字符集

UTF-16、UTF-8(带BOM)、Unicode可以根据前三个字节区别 

 

[java] view plaincopy
 
  1. public String getTxtEncode(FileInputStream in) throws IOException{  
  2.         byte[] head = new byte[3];    
  3.         in.read(head);      
  4.         String code = "GBK";    
  5.         if (head[0] == -1 && head[1] == -2 )    
  6.             code = "UTF-16";    
  7.         if (head[0] == -2 && head[1] == -1 )    
  8.             code = "Unicode";  
  9.         //带BOM  
  10.         if(head[0]==-17 && head[1]==-69 && head[2] ==-65)    
  11.             code = "UTF-8";    
  12.         if("Unicode".equals(code)){  
  13.          code = "UTF-16";  
  14.         }  
  15.         return code;  
  16.  }  

 

但不带BOM的UTF-8和GBK前三个字节不确定,用以上方法无法区别

 

通过在google上搜索发现不带BOM的识别是Java遗留的一个bug,呵呵,终于找到根源了,Java提供了此bug的解决方案

[java] view plaincopy
 
  1. package com.justsy.sts.utf8;  
  2.   
  3. import java.io.*;    
  4.   
  5. /**  
  6.  * This inputstream will recognize unicode BOM marks and will skip bytes if  
  7.  * getEncoding() method is called before any of the read(...) methods.  
  8.  *   
  9.  * Usage pattern: String enc = "ISO-8859-1"; // or NULL to use systemdefault  
  10.  * FileInputStream fis = new FileInputStream(file); UnicodeInputStream uin = new  
  11.  * UnicodeInputStream(fis, enc); enc = uin.getEncoding(); // check and skip  
  12.  * possible BOM bytes InputStreamReader in; if (enc == null) in = new  
  13.  * InputStreamReader(uin); else in = new InputStreamReader(uin, enc);  
  14.  */    
  15. public class UnicodeInputStream extends InputStream {    
  16.     PushbackInputStream internalIn;    
  17.     boolean isInited = false;    
  18.     String defaultEnc;    
  19.     String encoding;    
  20.     
  21.     private static final int BOM_SIZE = 4;    
  22.     
  23.     public UnicodeInputStream(InputStream in, String defaultEnc) {    
  24.         internalIn = new PushbackInputStream(in, BOM_SIZE);    
  25.         this.defaultEnc = defaultEnc;    
  26.     }    
  27.     
  28.     public String getDefaultEncoding() {    
  29.         return defaultEnc;    
  30.     }    
  31.     
  32.     public String getEncoding() {    
  33.         if (!isInited) {    
  34.             try {    
  35.                 init();    
  36.             } catch (IOException ex) {    
  37.                 IllegalStateException ise = new IllegalStateException(    
  38.                         "Init method failed.");    
  39.                 ise.initCause(ise);    
  40.                 throw ise;    
  41.             }    
  42.         }    
  43.         return encoding;    
  44.     }    
  45.     
  46.     /**  
  47.      * Read-ahead four bytes and check for BOM marks. Extra bytes are unread  
  48.      * back to the stream, only BOM bytes are skipped.  
  49.      */    
  50.     protected void init() throws IOException {    
  51.         if (isInited)    
  52.             return;    
  53.     
  54.         byte bom[] = new byte[BOM_SIZE];    
  55.         int n, unread;    
  56.         n = internalIn.read(bom, 0, bom.length);    
  57.     
  58.         if ((bom[0] == (byte0x00) && (bom[1] == (byte0x00)    
  59.                 && (bom[2] == (byte0xFE) && (bom[3] == (byte0xFF)) {    
  60.             encoding = "UTF-32BE";    
  61.             unread = n - 4;    
  62.         } else if ((bom[0] == (byte0xFF) && (bom[1] == (byte0xFE)    
  63.                 && (bom[2] == (byte0x00) && (bom[3] == (byte0x00)) {    
  64.             encoding = "UTF-32LE";    
  65.             unread = n - 4;    
  66.         } else if ((bom[0] == (byte0xEF) && (bom[1] == (byte0xBB)    
  67.                 && (bom[2] == (byte0xBF)) {    
  68.             encoding = "UTF-8";    
  69.             unread = n - 3;    
  70.         } else if ((bom[0] == (byte0xFE) && (bom[1] == (byte0xFF)) {    
  71.             encoding = "UTF-16BE";    
  72.             unread = n - 2;    
  73.         } else if ((bom[0] == (byte0xFF) && (bom[1] == (byte0xFE)) {    
  74.             encoding = "UTF-16LE";    
  75.             unread = n - 2;    
  76.         } else {    
  77.             // Unicode BOM mark not found, unread all bytes    
  78.             encoding = defaultEnc;    
  79.             unread = n;    
  80.         }    
  81.         // System.out.println("read=" + n + ", unread=" + unread);    
  82.     
  83.         if (unread > 0)    
  84.             internalIn.unread(bom, (n - unread), unread);    
  85.     
  86.         isInited = true;    
  87.     }    
  88.     
  89.     public void close() throws IOException {    
  90.         // init();    
  91.         isInited = true;    
  92.         internalIn.close();    
  93.     }    
  94.     
  95.     public int read() throws IOException {    
  96.         // init();    
  97.         isInited = true;    
  98.         return internalIn.read();    
  99.     }    
  100. }  

通过使用上述InputStream类的实现可以正确的读取出不带BOM和带BOM的字符集

[java] view plaincopy
 
  1. package com.justsy.sts.utf8;  
  2.   
  3. import java.io.BufferedReader;    
  4. import java.io.File;    
  5. import java.io.FileInputStream;    
  6. import java.io.IOException;    
  7. import java.io.InputStreamReader;  
  8. import java.nio.charset.Charset;  
  9.     
  10. public class UTF8Test {    
  11.     public static void main(String[] args) throws IOException {    
  12.         File f  = new File("D:"+File.separator+"Order.txt");    
  13.         FileInputStream in = new FileInputStream(f);    
  14.         String dc  = Charset.defaultCharset().name();  
  15.         UnicodeInputStream uin = new UnicodeInputStream(in,dc);  
  16.         BufferedReader br = new BufferedReader(new InputStreamReader(uin));    
  17.         String line = br.readLine();    
  18.         while(line != null)    
  19.         {    
  20.             System.out.println(line);    
  21.             line = br.readLine();    
  22.         }    
  23.     }    
  24. }  


结合Java提供的方案,我们就可以比较完整的判别出各种字符集了

[java] view plaincopy
 
  1. public String getTxtEncode(FileInputStream in) throws IOException{  
  2.    
  3.  String dc  = Charset.defaultCharset().name();  
  4.        UnicodeInputStream uin = new UnicodeInputStream(in,dc);  
  5.          
  6.        if("UTF-8".equals(uin.getEncoding())){  
  7.         uin.close();  
  8.         return "UTF-8";  
  9.        }  
  10.        uin.close();  
  11.          
  12.        byte[] head = new byte[3];    
  13.        in.read(head);      
  14.        String code = "GBK";    
  15.        if (head[0] == -1 && head[1] == -2 )    
  16.            code = "UTF-16";    
  17.        if (head[0] == -2 && head[1] == -1 )    
  18.            code = "Unicode";  
  19.        //带BOM  
  20.        if(head[0]==-17 && head[1]==-69 && head[2] ==-65)    
  21.            code = "UTF-8";    
  22.        if("Unicode".equals(code)){  
  23.         code = "UTF-16";  
  24.        }  
  25.        return code;  
  26. }  

本文的转载地址为:http://blog.csdn.net/tibib/article/details/7988735

分享到:
评论

相关推荐

    2024年机器人大作业代码

    2024年机器人大作业代码

    学生信息管理系统,idea-mysql小项目,记录一下

    这是mysql文件直接导入就行了,可以查一下相关指令例如:mysql -u root -p mydb_copy < mydb.sql就好了,这里就不多赘述了

    搜索关键字飞入飞出效果.zip

    Android 毕业设计,Android 毕业设计,小Android 程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    基于ssm的团员管理系统源代码(完整前后端+mysql+说明文档+LW).zip

    管理员 管理员信息管理 学院管理 辅导员管理 学生信息管理 公告信息 辅导员 个人资料修改 团员信息管理 优秀团员管理 团费缴纳管理 团员活动管理(主题,内容,参与人数,日期) 团员活的报名 学生 个人资料修改 入团申请管理(提交申请,申请结果查看) 团员活动查看(只能查看,不能修改,活动报名) 团员活动报名 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)

    基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目),个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)基于springboot图书管理系统源码+数据库+详细使用说明(高分毕设项目)个人大四的毕业设计、经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做毕设的学生和需要。

    Python项目-自动办公-51 Excel_案例_把文件夹整理到Excel中.zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    汽车检测33-YOLO(v5至v9)数据集合集.rar

    汽车检测33-YOLO(v5至v9)数据集合集.rar多对象-V4 2023-03-12 9:33 PM ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解和搜索非结构化图像数据 *注释,创建数据集 *导出,训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集 对于最先进的计算机视觉培训笔记本,您可以与此数据集一起使用 该数据集包含4278张图像。 多对象以Yolo V5 Pytorch格式注释。 将以下预处理应用于每个图像: *调整大小为640x640(拉伸) 应用以下扩展来创建每个源图像的3个版本: 将以下转换应用于每个图像的边界框: *以下90度旋转之一的同等概率:无,顺时针,逆时针方向

    Python项目-自动办公-44 excel处理实例(二维表转一维表).zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    三亚市2005-2024年近20年历史气象数据下载

    三亚市2005-2024年近20年的历史气象数据,每3小时更新一次数据,参数包含气温、气压、降水量、云层、能见度、风向、湿度等,几万条数据

    公开整理-全国高校各专业及分方向研究生录取人数大数据(更新至2022年).zip

    详细介绍及样例数据:https://blog.csdn.net/T0620514/article/details/144542157

    javaweb音乐网系统-lw.zip

    项目包含前后台完整源码。 项目都经过严格调试,确保可以运行! 具体项目介绍可查看博主文章或私聊获取 助力学习实践,提升编程技能,快来获取这份宝贵的资源吧!

    Python项目-自动办公-08 用Python设置Word文档里表格的格式.zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    STM32F103通过WIFI接收配置信息修改BC260-NBIOT模块的目标IP和端口程序代码

    1、嵌入式物联网单片机项目开发实战。例程经过精心编写,简单好用。 2、代码使用KEIL 标准库开发,当前在STM32F103运行,如果是STM32F103其他型号芯片,依然适用,请自行更改KEIL芯片型号以及FLASH容量即可。 3、软件下载时,请注意keil选择项是jlink还是stlink。 4、有偿指导v:wulianjishu666; 5、如果接入其他传感器,请查看发布的其他资料。 6、单片机与模块的接线,在代码当中均有定义,请自行对照。 7、若硬件差异,请根据自身情况调整代码,程序仅供参考学习。 8、代码有注释说明,请耐心阅读。

    瓶罐瓶子罐子检测75-YOLO(v5至v9)、COCO、CreateML、Darknet数据集合集.rar

    瓶罐瓶子罐子检测75-YOLO(v5至v9)、COCO、CreateML、Darknet数据集合集.rar街7级-V2 2023-04-28 11:45 PM ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解和搜索非结构化图像数据 *注释,创建数据集 *导出,训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集 对于最先进的计算机视觉培训笔记本,您可以与此数据集一起使用 该数据集包括8934张图像。 街道以可可格式注释。 将以下预处理应用于每个图像: *像素数据的自动取向(带有Exif-Arientation剥离) *调整大小为640x640(拉伸) 没有应用图像增强技术。

    基于ssm的高速公路收费系统源代码(完整前后端+mysql+说明文档+LW).zip

    管理员 管理员信息管理 负责人管理 员工信息管理 公告信息管理 小型车收费标准设置(元/每公里) 大卡车收费标准设置(元/吨公里) 收费信息统计,统计小车和卡车收费,按月统计 负责人 个人资料修改 公告查看 小车收费统计(某员工某月统计) 大卡车收费统计(某员工某月统计) 员工 个人资料修改 公告查看 小型车收费登记(车牌号,车辆照片,行使公里数,收费金额,收费日期,收费员,按公里数可以自动计算费用 收费金额=收费标准*公里数) 大卡车金额设置(每吨/元)(车牌号,车辆照片,行使公里数,吨,收费金额,收费日期,收费员, 收费金额=收费标准*吨*公里数 ) 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    【图像加密解密】基于matlab Logistic映射和线性反馈移位寄存器组合的图像加密解密【含Matlab源码 9866期】复现.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

    Python项目-实例-08 抖音表白.zip

    Python课程设计,含有代码注释,新手也可看懂。毕业设计、期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。

    桌球检测10-YOLO(v5至v9)、Darknet、Paligemma、TFRecord、VOC数据集合集.rar

    桌球检测10-YOLO(v5至v9)、Darknet、Paligemma、TFRecord、VOC数据集合集.rar大理石-V3版本 ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解和搜索非结构化图像数据 *注释,创建数据集 *导出,训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集 对于最先进的计算机视觉培训笔记本,您可以与此数据集一起使用 该数据集包括105张图像。 大理石以Yolo V3 Darknet格式注释。 将以下预处理应用于每个图像: 没有应用图像增强技术。

    基于java的华奥汽车销售集团网源码.zip

    项目包含前后台完整源码。 项目都经过严格调试,确保可以运行! 具体项目介绍可查看博主文章或私聊获取 助力学习实践,提升编程技能,快来获取这份宝贵的资源吧!

    喜来登五星酒店酒店数字客房管理系统.docx

    喜来登五星酒店酒店数字客房管理系统.docx

Global site tag (gtag.js) - Google Analytics