在遇到中文汉字乱码的时候,我们经常需要确认当前汉字的编码以及需要转换成哪种编码,以下代码能很好的协助我们进行汉字的转码:
public static void printbytes(byte[] bytes){
int j = 0;
String s = "";
int len = bytes.length;
System.out.println("\n--------00-01-02-03-04-05-06-07-08-09-0A-0B-0C-0D-0E-0F--0123456789ABCDEF");
int i = 0;
for (i = 0; i < len; i++) {
if (i % 16 == 0) {
j++;
System.out.print(String.valueOf(String.valueOf((new StringBuffer("L ")).append(j)
.append(":\t"))));
s = " ";
}
if (bytes[i] >= 0x00 && bytes[i] < 0x10)
System.out.print("0");
System.out.print(Long.toString((long) bytes[i]& (long) 255, 16)+ " ");
char c = (char) bytes[i];
if (c > 0x20 && c < 0x80)
s += c;
else
s += "_";
if (i % 16 == 15)
System.out.println(s);
}
for (i %= 16; i < 16; i++)
System.out.print(" ");
if (!s.equals(""))
System.out.println(s);
System.out.println("--------00-01-02-03-04-05-06-07-08-09-0A-0B-0C-0D-0E-0F--0123456789ABCDEF");
}
public static void main(String arg[]){
String str="测试123";
try {
System.out.println(printbytes(str.getBytes("gbk")));
System.out.println(printbytes(str.getBytes("iso-8859-1")));
System.out.println(printbytes(str.getBytes("utf-8")));
} catch (Exception e) {
e.printStackTrace();
}
}
如果打印出来是(ASCII字符):B2 E2 CA D4 31 32 33 则当前的汉字("测试123")即为其编码。
分享到:
相关推荐
随着信息技术的发展,汉字编码成为连接计算机技术与中文使用者之间的重要桥梁。本文旨在探讨汉字编码的发展历程及其在信息技术领域中的重要性,尤其聚焦于国内汉字编码标准的发展脉络。通过梳理ASCII、GB2312、GBK、...
假设在处理一段中文文本时,遇到了乱码问题,文本中本应显示为“中国”的部分显示为乱码。此时,通过查阅汉字编码表,可以发现“中”字的Unicode码点为U+4E2D,“国”字的Unicode码点为U+56FD。进一步检查程序的编码...
根据提供的文件信息,本文将详细解释...通过以上分析可以看出,这段代码虽然简单,但是却实现了汉字到拼音转换的基本功能。这对于初学者来说是一个很好的学习案例,可以帮助理解字符编码以及字符串处理等方面的知识。
具体实现方式为通过判断汉字Unicode编码的范围来确定其拼音首字母。由于汉字的Unicode编码范围非常广,因此这里只给出了每个拼音首字母对应的大致编码区间。 #### 参数说明: - `char`:需要转换的汉字,类型为字符...
GB2312编码,正式名称为《信息交换用汉字编码字符集·基本集》,是中国国家标准局在1981年5月1日发布的第一个针对简体中文的字符编码标准。它别名GB0,是为了解决计算机系统中中文信息处理的问题而设计的编码方案,...
在这个项目中,开发者提供了一段源代码,用于实现汉字到拼音的转换,特别强调了该代码是基于Unicode编码,而不是多字符集格式,这通常意味着更广泛的字符支持和更高的准确性。 在多字符集的环境中,例如GBK或者BIG5...
其中,区位码是一种早期的汉字编码标准,尤其在简体中文系统中较为常见。区位码由两个字节组成,分别代表汉字在对应区和位上的位置,它是一个逻辑坐标系统,方便查找和输入汉字。 ### 区位码的构成 区位码由两部分...
加载码是一段特定的代码,当CAD程序启动时加载,添加新的功能。在这个案例中,加载码可能是一个DLL(动态链接库)或LISP脚本,用于在CAD环境中集成汉字转拼音的功能。 4. **“表格汉字转拼音.txt”**:这个文件很...
3. **字符编码处理**:在处理汉字时,需要理解Unicode或GB2312等汉字编码格式。 这个压缩包对于学习PureBasic编程、汉字处理以及了解五笔输入法的实现机制非常有价值。用户可以研究代码来学习如何进行汉字与拼音、...
* 每一个海湾的卡板上皆有一个拨盘与拨针 * 拨盘为 0~9 的数字,表示个位数 * 拨针有四个阵脚,出厂时短接“0”与“1”脚,代表十位数为 0 在这里需要注意的是,在安装 02 卡时,必须选择总线卡槽中空余部位安装,...
2. **汉字拆分**:由于一个汉字可能有多个读音,需要根据上下文或特定规则来确定正确的拼音。 3. **拼音转换**:将汉字转换为其拼音形式,包括声母、韵母和声调。 4. **首字母拼音**:从全拼音中提取出每个汉字的...
这段代码定义了一个名为`codeGB_16`的数组,其中每个元素都是一个`typFNT_GB16`结构体实例。第一个汉字的点阵数据由多个`0x00`组成,这表示该汉字在指定位置为空白或不绘制任何像素。 #### 4. 显示原理 为了在LCD...
在函数内部,定义了一个二维数组 `HZCode`,这个数组包含了每个拼音字母对应的一段汉字 Unicode 范围。遍历输入字符串中的每个字符,如果是一个汉字(Unicode 编码在 #160 及以上),则计算其在 `HZCode` 数组中的...
1. **中文排序**:在处理中文数据时,直接按照字节顺序排序可能导致错误的结果,因为汉字编码的字节顺序并不等同于它们在汉语中的自然排序。通过将每个汉字转换为其拼音首字母,可以实现更合理的排序。 2. **检索...
- **gb2312**: 一种汉字编码标准,主要在中国大陆使用,用于表示简体中文。 - **utf-8**: 一种通用的多字节编码方式,支持几乎所有语言的文字编码,具有良好的向后兼容性和扩展性。 **问题本质** 问题的根本在于...
汉字到拼音的转换本质上是对汉字编码的一种映射。在Unicode标准中,每一个汉字都有其对应的Unicode码点,而每个汉字的拼音也有固定的对应规则。因此,实现汉字转拼音的关键在于构建一个从汉字到拼音的映射表,然后...
这段代码定义了一个名为`pinyin`的函数,用于实现中文转拼音的功能。 4. **保存并测试**:保存代码后,可以通过在Excel单元格中调用这个函数来测试其效果。例如,在某个单元格输入`=pinyin("中")`,即可得到该汉字...
这段代码实现了单个汉字拼音首字母的获取。其中: - `arrCN`是汉字的字节表示。 - `area`和`pos`分别代表了汉字的高位字节和低位字节。 - `code`是汉字的码位值。 - `areaCode`数组定义了码位值范围与拼音首字母之间...
对于这个名为"ChiToLetter"的项目,我们可以推断这是一段使用C++编程语言编写的代码,其主要目标是实现将汉字转换为拼音的功能。C++是一种强大且灵活的编程语言,适合开发这类效率要求较高的系统级应用。 在源代码...
要判断一段文本(源码)中是否包含中文字符,我们可以采用以下几种方法: 1. **遍历字符检查**:通过循环遍历文本中的每一个字符,判断其Unicode编码是否在中文字符范围内(通常为0x4E00到0x9FA5)。如果找到一个在...