`

不同编码的TXT文件的前三个字符是不同的

阅读更多

 

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class EncodeTest {

	/**
	 * @param args
	 * @throws IOException 
	 */
	public static void main(String[] args) throws IOException {
		// TODO Auto-generated method stub
		InputStream is = null;
		String[] filenames = { "d:/gbk.txt", "d:/utf-8.txt" ,"d:/unicode.txt","d:/unicodeBig.txt"};
		for (String filename : filenames) {
			is = new FileInputStream(filename);
			System.out.print(filename+"文件的前3个字符(HEX):");
			for(int i=0;i<3;i++){
				int ch = is.read();
				System.out.print(Integer.toHexString(ch));
			}
			System.out.println();
		}
		if(is!=null){
			is.close();
		}
	}
}
 

 

d:/gbk.txt文件的前3个字符(HEX):616263
d:/utf-8.txt文件的前3个字符(HEX):efbbbf
d:/unicode.txt文件的前3个字符(HEX):fffe61
d:/unicodeBig.txt文件的前3个字符(HEX):feff0
 

 

分享到:
评论

相关推荐

    字符编码文档

    字符是文字、数字、标点符号等可视元素的统称,而编码则是为每个字符分配一个唯一的数字或二进制序列,使得计算机能够识别和操作这些字符。编码系统是规定字符与数字之间对应关系的规则,比如ASCII编码系统。 **二...

    不同字符编码集的文件读取

    通过创建一个字节数组来存储文件内容,并使用`new String(byte[], String)`构造函数来创建一个字符串对象,该对象会自动按照指定的编码进行解码。 #### 三、Unicode Big Endian Unicode Big Endian(UBC)是一种...

    字符编码查询工具

    ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是最早广泛使用的字符编码,包含了128个字符,主要覆盖了英文、数字、标点符号和一些控制字符。每个ASCII字符用一个字节(8位)...

    VB转换字符编码(构造发送字符消息的准备工作)

    "VB转换字符编码(构造发送字符消息的准备工作)"这个标题涉及到的关键点是字符编码的转换以及如何为发送字符消息做好前期的准备工作。 首先,让我们了解字符编码的基本概念。字符编码是用来表示文本的一套规则,常见...

    判断字符编码格式代码

    - 可变长度编码,每个字符使用1到4个字节进行编码。 - 支持全世界所有国家的文字。 - 在Web开发中最为常用。 #### 3. Unicode - **定义**:Unicode是一种国际化的字符集标准,旨在为每种语言中的每个字符分配一...

    Java字符编码及获取文件编码

    Java本身并不直接提供一个内置的方法来检测文件的编码,但我们可以使用一些第三方库或技巧来实现。例如,`java.nio.charset.Charset`类提供了识别字符集的功能,但不能自动检测文件编码。通常,我们需要读取文件的前...

    BIG5编码表又称大五码,是繁体中文字符集编码标准,共收录13060个中文字。

    BIG5编码使用双字节结构,即每个字符由两个字节组成。高位字节的范围是0x81到0xFE,低位字节的范围是0x40到0x7E,以及0xA1到0xFE。这种设计使得每个字符可以用16进制的两个数字来表示,例如"8140"到"FEFE"。 在BIG5...

    字符编码转换器(C#)

    在"CodeFileChanged"和"CodeFileChangedForm"这两个文件中,很可能是实现了这个字符编码转换的界面和逻辑。"CodeFileChanged"可能包含了核心的编码转换代码,而"CodeFileChangedForm"则可能是用户界面,用户可以通过...

    java文件字符编码集判断依赖.zip

    通用的文件字符编码集判断需要借助第三方包...使用Cpdetector jar包检测文件编码需要依赖antlr-2.7.7.jar、chardet-1.0.jar、jargs-1.0.jar三个jar包 本下载资源一站式全包含,并附带亲测有效的片段代码供测试~~

    字符编码详情.pdf

    - **特点**:共定义了128个字符,每个字符占用一个字节的前7位,最高位通常设为0,因此ASCII码占用一个字节的空间。 2. **扩展ASCII编码(EASCII)** - **简介**:扩展ASCII码是在标准ASCII码的基础上增加了一些...

    unicode编码表_txt文件

    - **代码点表示**:“Unicode编码表_txt文件”中提供了部分Unicode编码表的内容,通过查看这些代码点及其对应的字符,可以了解到Unicode是如何表示各种字符的。 - **十六进制与十进制转换**:例如,“0x3000”表示...

    字符集编码查询/反查工具

    在提供的压缩包文件名列表中,go.bat和go.sh可能是两个脚本文件,分别对应Windows和Linux环境下的执行命令,可能用于启动这个字符集编码查询工具。readme.txt通常是说明文档,会详细介绍如何使用这个工具。conf、lib...

    中文字符串截取(支持各种编码格式)底层实现源码

    在ASCII编码中,一个字符由一个字节表示,而对于中文字符,通常使用Unicode编码,其中UTF-8是最常见的编码格式。UTF-8编码中,英文字符占用1个字节,而中文字符可能占用3个或4个字节。因此,简单的基于字节的截取...

    Java判断文件编码格式 - 明明是悟空 - 博客园1

    首先,对于简单的UTF-8编码格式判断,我们可以直接读取文件的前三个字节来确定。UTF-8编码的文件头通常由特定的字节序列标识,即字节值为-17(0xEF)、-69(0xBB)和-65(0xBF)。以下是一个简单的Java代码示例: `...

    自动识别不同编码的文本文件

    Unicode 16则是Unicode的一种实现方式,它使用16位(2字节)来表示一个字符。Unicode 16有两种字节顺序标记(BOM),即Little Endian和Big Endian,用于指示字节的顺序。Little Endian先存储低字节,Big Endian则先...

    字符编码详解

    为了解决国际化的字符支持问题,第三个阶段引入了UNICODE编码标准。UNICODE旨在提供全球范围内所有语言字符的统一编码方案,为每个字符分配了一个唯一的数字编码,使得跨语言、跨平台的信息处理成为可能。现代操作...

    不同编码保存的文件

    "utf8.txt"这个文件名表明这个文件是以UTF-8编码保存的,因此可以支持全球多种语言,包括简体和繁体中文,且在互联网上广泛使用。 其次,BIG5编码主要用于繁体中文,尤其在台湾和香港地区常见。它是针对中文传统...

    读取文件字符编码所需jar包

    总结来说,"读取文件字符编码所需jar包"是用于解决文本文件编码识别问题的工具集合,包含ANTLR、CPDetector和Chardet这三个组件,它们在Java环境中可以帮助开发者更方便地处理各种编码的TXT文件,确保数据的正确性和...

    Java字符集和编码

    在Java中,字符是以16位Unicode编码表示的,这意味着每个`char`类型变量可以表示Unicode中的任意一个字符。Java的`java.io`包提供了丰富的流类,用于处理文件读写和网络通信中的数据。为了处理不同编码格式的数据,...

Global site tag (gtag.js) - Google Analytics