`
gallop_liu
  • 浏览: 110102 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

一段确认中文汉字编码的代码

阅读更多

    在遇到中文汉字乱码的时候,我们经常需要确认当前汉字的编码以及需要转换成哪种编码,以下代码能很好的协助我们进行汉字的转码:

public static void printbytes(byte[] bytes){
    int j = 0;
    String s = "";
    int len = bytes.length;
    System.out.println("\n--------00-01-02-03-04-05-06-07-08-09-0A-0B-0C-0D-0E-0F--0123456789ABCDEF");
    int i = 0;
    for (i = 0; i < len; i++) {
        if (i % 16 == 0) {
        j++;
        System.out.print(String.valueOf(String.valueOf((new StringBuffer("L ")).append(j)
        .append(":\t"))));
        s = " ";
       }
       if (bytes[i] >= 0x00 && bytes[i] < 0x10)
            System.out.print("0");
       System.out.print(Long.toString((long) bytes[i]& (long) 255, 16)+ " ");
       char c = (char) bytes[i];
       if (c > 0x20 && c < 0x80)
           s += c;
       else
           s += "_";
       if (i % 16 == 15)
           System.out.println(s);
   }
    for (i %= 16; i < 16; i++)
        System.out.print("   ");

    if (!s.equals(""))
       System.out.println(s);

    System.out.println("--------00-01-02-03-04-05-06-07-08-09-0A-0B-0C-0D-0E-0F--0123456789ABCDEF");
 }

 

public static void main(String arg[]){
  String str="测试123";
  try {

    System.out.println(printbytes(str.getBytes("gbk")));

    System.out.println(printbytes(str.getBytes("iso-8859-1")));

    System.out.println(printbytes(str.getBytes("utf-8")));
    } catch (Exception e) {

         e.printStackTrace();
  }
 }

 

如果打印出来是(ASCII字符):B2 E2 CA  D4 31 32 33  则当前的汉字("测试123")即为其编码。

分享到:
评论

相关推荐

    汉字编码及其演进关系

    随着信息技术的发展,汉字编码成为连接计算机技术与中文使用者之间的重要桥梁。本文旨在探讨汉字编码的发展历程及其在信息技术领域中的重要性,尤其聚焦于国内汉字编码标准的发展脉络。通过梳理ASCII、GB2312、GBK、...

    汉字编码表,需要的时候可以从里面查找

    假设在处理一段中文文本时,遇到了乱码问题,文本中本应显示为“中国”的部分显示为乱码。此时,通过查阅汉字编码表,可以发现“中”字的Unicode码点为U+4E2D,“国”字的Unicode码点为U+56FD。进一步检查程序的编码...

    C#汉字转拼音打代码

    根据提供的文件信息,本文将详细解释...通过以上分析可以看出,这段代码虽然简单,但是却实现了汉字到拼音转换的基本功能。这对于初学者来说是一个很好的学习案例,可以帮助理解字符编码以及字符串处理等方面的知识。

    vb代码,转换汉字的拼音字头

    具体实现方式为通过判断汉字Unicode编码的范围来确定其拼音首字母。由于汉字的Unicode编码范围非常广,因此这里只给出了每个拼音首字母对应的大致编码区间。 #### 参数说明: - `char`:需要转换的汉字,类型为字符...

    GB2312编码对照表

    GB2312编码,正式名称为《信息交换用汉字编码字符集·基本集》,是中国国家标准局在1981年5月1日发布的第一个针对简体中文的字符编码标准。它别名GB0,是为了解决计算机系统中中文信息处理的问题而设计的编码方案,...

    VS2005下使用unicode编码汉字转换为拼音

    在这个项目中,开发者提供了一段源代码,用于实现汉字到拼音的转换,特别强调了该代码是基于Unicode编码,而不是多字符集格式,这通常意味着更广泛的字符支持和更高的准确性。 在多字符集的环境中,例如GBK或者BIG5...

    汉字与区位码互转

    其中,区位码是一种早期的汉字编码标准,尤其在简体中文系统中较为常见。区位码由两个字节组成,分别代表汉字在对应区和位上的位置,它是一个逻辑坐标系统,方便查找和输入汉字。 ### 区位码的构成 区位码由两部分...

    表格汉字转拼音_汉字转拼音_

    加载码是一段特定的代码,当CAD程序启动时加载,添加新的功能。在这个案例中,加载码可能是一个DLL(动态链接库)或LISP脚本,用于在CAD环境中集成汉字转拼音的功能。 4. **“表格汉字转拼音.txt”**:这个文件很...

    PB纯代码 汉字串 生成首码拼音,五笔字母串.rar

    3. **字符编码处理**:在处理汉字时,需要理解Unicode或GB2312等汉字编码格式。 这个压缩包对于学习PureBasic编程、汉字处理以及了解五笔输入法的实现机制非常有价值。用户可以研究代码来学习如何进行汉字与拼音、...

    海湾主机编码表导出说明.docx

    * 每一个海湾的卡板上皆有一个拨盘与拨针 * 拨盘为 0~9 的数字,表示个位数 * 拨针有四个阵脚,出厂时短接“0”与“1”脚,代表十位数为 0 在这里需要注意的是,在安装 02 卡时,必须选择总线卡槽中空余部位安装,...

    JS实现获取汉字首字母拼音、全拼音及混拼音的方法

    2. **汉字拆分**:由于一个汉字可能有多个读音,需要根据上下文或特定规则来确定正确的拼音。 3. **拼音转换**:将汉字转换为其拼音形式,包括声母、韵母和声调。 4. **首字母拼音**:从全拼音中提取出每个汉字的...

    STM32显示汉字程序(开拓者)

    这段代码定义了一个名为`codeGB_16`的数组,其中每个元素都是一个`typFNT_GB16`结构体实例。第一个汉字的点阵数据由多个`0x00`组成,这表示该汉字在指定位置为空白或不绘制任何像素。 #### 4. 显示原理 为了在LCD...

    delphi 将汉字翻译成拼音缩写的函数

    在函数内部,定义了一个二维数组 `HZCode`,这个数组包含了每个拼音字母对应的一段汉字 Unicode 范围。遍历输入字符串中的每个字符,如果是一个汉字(Unicode 编码在 #160 及以上),则计算其在 `HZCode` 数组中的...

    中文首字母排序java代码

    1. **中文排序**:在处理中文数据时,直接按照字节顺序排序可能导致错误的结果,因为汉字编码的字节顺序并不等同于它们在汉语中的自然排序。通过将每个汉字转换为其拼音首字母,可以实现更合理的排序。 2. **检索...

    HTML1114 (HTTP 标头)的代码页 gb2312 覆盖(META 标记)的冲突的代码页 utf-8

    - **gb2312**: 一种汉字编码标准,主要在中国大陆使用,用于表示简体中文。 - **utf-8**: 一种通用的多字节编码方式,支持几乎所有语言的文字编码,具有良好的向后兼容性和扩展性。 **问题本质** 问题的根本在于...

    javascript汉字转换成拼音

    汉字到拼音的转换本质上是对汉字编码的一种映射。在Unicode标准中,每一个汉字都有其对应的Unicode码点,而每个汉字的拼音也有固定的对应规则。因此,实现汉字转拼音的关键在于构建一个从汉字到拼音的映射表,然后...

    Excel中文转拼音VBA

    这段代码定义了一个名为`pinyin`的函数,用于实现中文转拼音的功能。 4. **保存并测试**:保存代码后,可以通过在Excel单元格中调用这个函数来测试其效果。例如,在某个单元格输入`=pinyin("中")`,即可得到该汉字...

    C# 获取汉字首字母

    这段代码实现了单个汉字拼音首字母的获取。其中: - `arrCN`是汉字的字节表示。 - `area`和`pos`分别代表了汉字的高位字节和低位字节。 - `code`是汉字的码位值。 - `areaCode`数组定义了码位值范围与拼音首字母之间...

    ChiToLetter.rar_汉字转 拼音_汉字转拼音

    对于这个名为"ChiToLetter"的项目,我们可以推断这是一段使用C++编程语言编写的代码,其主要目标是实现将汉字转换为拼音的功能。C++是一种强大且灵活的编程语言,适合开发这类效率要求较高的系统级应用。 在源代码...

    易语言判断文本中是否有中文源码

    要判断一段文本(源码)中是否包含中文字符,我们可以采用以下几种方法: 1. **遍历字符检查**:通过循环遍历文本中的每一个字符,判断其Unicode编码是否在中文字符范围内(通常为0x4E00到0x9FA5)。如果找到一个在...

Global site tag (gtag.js) - Google Analytics