Java正确判别出文件的字符集(尤其是带BOM和不带BOM的UTF-8字符)
前几天在项目中需要读取用户上传过来的txt文件,但不确定txt文件的字符集
UTF-16、UTF-8(带BOM)、Unicode可以根据前三个字节区别
- public String getTxtEncode(FileInputStream in) throws IOException{
- byte[] head = new byte[3];
- in.read(head);
- String code = "GBK";
- if (head[0] == -1 && head[1] == -2 )
- code = "UTF-16";
- if (head[0] == -2 && head[1] == -1 )
- code = "Unicode";
- //带BOM
- if(head[0]==-17 && head[1]==-69 && head[2] ==-65)
- code = "UTF-8";
- if("Unicode".equals(code)){
- code = "UTF-16";
- }
- return code;
- }
但不带BOM的UTF-8和GBK前三个字节不确定,用以上方法无法区别
通过在google上搜索发现不带BOM的识别是Java遗留的一个bug,呵呵,终于找到根源了,Java提供了此bug的解决方案
- package com.justsy.sts.utf8;
- import java.io.*;
- /**
- * This inputstream will recognize unicode BOM marks and will skip bytes if
- * getEncoding() method is called before any of the read(...) methods.
- *
- * Usage pattern: String enc = "ISO-8859-1"; // or NULL to use systemdefault
- * FileInputStream fis = new FileInputStream(file); UnicodeInputStream uin = new
- * UnicodeInputStream(fis, enc); enc = uin.getEncoding(); // check and skip
- * possible BOM bytes InputStreamReader in; if (enc == null) in = new
- * InputStreamReader(uin); else in = new InputStreamReader(uin, enc);
- */
- public class UnicodeInputStream extends InputStream {
- PushbackInputStream internalIn;
- boolean isInited = false;
- String defaultEnc;
- String encoding;
- private static final int BOM_SIZE = 4;
- public UnicodeInputStream(InputStream in, String defaultEnc) {
- internalIn = new PushbackInputStream(in, BOM_SIZE);
- this.defaultEnc = defaultEnc;
- }
- public String getDefaultEncoding() {
- return defaultEnc;
- }
- public String getEncoding() {
- if (!isInited) {
- try {
- init();
- } catch (IOException ex) {
- IllegalStateException ise = new IllegalStateException(
- "Init method failed.");
- ise.initCause(ise);
- throw ise;
- }
- }
- return encoding;
- }
- /**
- * Read-ahead four bytes and check for BOM marks. Extra bytes are unread
- * back to the stream, only BOM bytes are skipped.
- */
- protected void init() throws IOException {
- if (isInited)
- return;
- byte bom[] = new byte[BOM_SIZE];
- int n, unread;
- n = internalIn.read(bom, 0, bom.length);
- if ((bom[0] == (byte) 0x00) && (bom[1] == (byte) 0x00)
- && (bom[2] == (byte) 0xFE) && (bom[3] == (byte) 0xFF)) {
- encoding = "UTF-32BE";
- unread = n - 4;
- } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)
- && (bom[2] == (byte) 0x00) && (bom[3] == (byte) 0x00)) {
- encoding = "UTF-32LE";
- unread = n - 4;
- } else if ((bom[0] == (byte) 0xEF) && (bom[1] == (byte) 0xBB)
- && (bom[2] == (byte) 0xBF)) {
- encoding = "UTF-8";
- unread = n - 3;
- } else if ((bom[0] == (byte) 0xFE) && (bom[1] == (byte) 0xFF)) {
- encoding = "UTF-16BE";
- unread = n - 2;
- } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)) {
- encoding = "UTF-16LE";
- unread = n - 2;
- } else {
- // Unicode BOM mark not found, unread all bytes
- encoding = defaultEnc;
- unread = n;
- }
- // System.out.println("read=" + n + ", unread=" + unread);
- if (unread > 0)
- internalIn.unread(bom, (n - unread), unread);
- isInited = true;
- }
- public void close() throws IOException {
- // init();
- isInited = true;
- internalIn.close();
- }
- public int read() throws IOException {
- // init();
- isInited = true;
- return internalIn.read();
- }
- }
通过使用上述InputStream类的实现可以正确的读取出不带BOM和带BOM的字符集
- package com.justsy.sts.utf8;
- import java.io.BufferedReader;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.IOException;
- import java.io.InputStreamReader;
- import java.nio.charset.Charset;
- public class UTF8Test {
- public static void main(String[] args) throws IOException {
- File f = new File("D:"+File.separator+"Order.txt");
- FileInputStream in = new FileInputStream(f);
- String dc = Charset.defaultCharset().name();
- UnicodeInputStream uin = new UnicodeInputStream(in,dc);
- BufferedReader br = new BufferedReader(new InputStreamReader(uin));
- String line = br.readLine();
- while(line != null)
- {
- System.out.println(line);
- line = br.readLine();
- }
- }
- }
结合Java提供的方案,我们就可以比较完整的判别出各种字符集了
- public String getTxtEncode(FileInputStream in) throws IOException{
- String dc = Charset.defaultCharset().name();
- UnicodeInputStream uin = new UnicodeInputStream(in,dc);
- if("UTF-8".equals(uin.getEncoding())){
- uin.close();
- return "UTF-8";
- }
- uin.close();
- byte[] head = new byte[3];
- in.read(head);
- String code = "GBK";
- if (head[0] == -1 && head[1] == -2 )
- code = "UTF-16";
- if (head[0] == -2 && head[1] == -1 )
- code = "Unicode";
- //带BOM
- if(head[0]==-17 && head[1]==-69 && head[2] ==-65)
- code = "UTF-8";
- if("Unicode".equals(code)){
- code = "UTF-16";
- }
- return code;
- }
相关推荐
BOM是UTF-8、UTF-16和UTF-32等编码格式中的一个可选标记,用于告知解析器文件的编码类型。例如,UTF-8的BOM是三个字节(0xEF, 0xBB, 0xBF),而UTF-16LE和UTF-16BE的BOM分别是两个字节(0xFF, 0xFE)和(0xFE, 0xFF...
在C#编程语言中,处理文本文件时,了解文件的编码格式至关重要,因为不同的编码方式会影响到字符的正确读取和解析。本篇将介绍如何使用C#编写一个类来检测文本文件的编码,特别是区分GB2312(简体中文GBK编码)和UTF...
pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。
基于java的大学生兼职信息系统答辩PPT.pptx
基于java的乐校园二手书交易管理系统答辩PPT.pptx
tornado-6.4-cp38-abi3-musllinux_1_1_i686.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
有学生和教师两种角色 登录和注册模块 考场信息模块 考试信息模块 点我收藏 功能 监考安排模块 考场类型模块 系统公告模块 个人中心模块: 1、修改个人信息,可以上传图片 2、我的收藏列表 账号管理模块 服务模块 eclipse或者idea 均可以运行 jdk1.8 apache-maven-3.6 mysql5.7及以上 tomcat 8.0及以上版本
tornado-6.1b2-cp38-cp38-macosx_10_9_x86_64.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
matlab
基于java的毕业生就业信息管理系统答辩PPT.pptx
随着高等教育的普及和毕业设计的日益重要,为了方便教师、学生和管理员进行毕业设计的选题和管理,我们开发了这款基于Web的毕业设计选题系统。 该系统主要包括教师管理、院系管理、学生管理等多个模块。在教师管理模块中,管理员可以新增、删除教师信息,并查看教师的详细资料,方便进行教师资源的分配和管理。院系管理模块则允许管理员对各个院系的信息进行管理和维护,确保信息的准确性和完整性。 学生管理模块是系统的核心之一,它提供了学生选题、任务书管理、开题报告管理、开题成绩管理等功能。学生可以在此模块中进行毕业设计的选题,并上传任务书和开题报告,管理员和教师则可以对学生的报告进行审阅和评分。 此外,系统还具备课题分类管理和课题信息管理功能,方便对毕业设计课题进行分类和归档,提高管理效率。在线留言功能则为学生、教师和管理员提供了一个交流互动的平台,可以就毕业设计相关问题进行讨论和解答。 整个系统设计简洁明了,操作便捷,大大提高了毕业设计的选题和管理效率,为高等教育的发展做出了积极贡献。
这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制
基于微信小程序的高校毕业论文管理系统小程序答辩PPT.pptx
基于java的超市 Pos 收银管理系统答辩PPT.pptx
基于java的网上报名系统答辩PPT.pptx
基于java的网上书城答辩PPT.pptx
婚恋网站 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
基于java的戒烟网站答辩PPT.pptx