`
zl378837964
  • 浏览: 190860 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

常用ASCII/ISO-8859-1/GB2312/GBK/UTF-8等字符编码梳理

阅读更多

        在计算机中所有的数据在存储和计算时都以二进制形式存在。我们平时使用的 a, b, c等字符,也要转换成二进制方式进行存储。具体哪个二进制数字表示哪个字符,是按照约定形成的一套映射标准,这就是编码 。

        如果没有统一的标准,每个人都按照自己的方式进行字节和字符的映射,那就乱了。因此,1967年 ASCII 码诞生:适用于所有拉丁文字字母、阿拉伯数字、部分符号。然而 ASCII 也不是万能的,首要问题就是它只能表达 128 个字符,且仅适用于英语环境(其扩展能胜任部分西欧语言)。比如中文汉字有近十万个(91251),ASCII 码完全不能适用。

        计算机中存储信息的最小单位是字节(byte),即 8 个 bit,能够表示的字符范围是 2^8 = 256 个。而人类社会语言众多符号众多,一个字节根本不足以表示所有符号,所以需要多个字节。个人总结,这种用若干个字节,根据一定的标准映射关系,完成从二进制数据和特定字符集之间的转换过程,就是编码 。

比如: 

// 编码过程:将目标字符变成字节流
byte[] bytes = "测试".getBytes("UTF-8");
// 解码过程:字节流恢复成可用字符
String s = new String(bytes, "UTF-8");
 

 

在各种系统,网络,空间介质传播信息的时候,按照字节流传递,编码就变得尤为重要了。

 Java 中很多地方默认使用 ISO-8859-1,但它不支持中文,要注意。

GBK 和 GB18030 都完全兼容 GB2312,也就是说用 GB2312 生成的编码序列,可以用 GBK 和 GB18030 正常解码

GB18030 基本兼容 GBK

UTF-16 编码效率最高,但是它也有不足:

  • 所有字符都用 2 个字节编码,某种情况下浪费空间
  • 字节流一旦损坏则很难恢复。

UTF-8 编码效率略低于 UTF-16,但它的优点很明显(所以一般更推荐 UTF-8):

  • 无缝兼容 ASCII
  • 变长编码,有些情况下不会过度浪费空间
  • 另外单个字符的损坏不会影响其他字符(网络传输中很有优势)

ISO-8859-1:

正式编号为ISO/IEC 8859-1:1998,又称Latin-1或“西欧语言”,是国际标准化组织内ISO/IEC 8859的第一个8位字符集。它以ASCII为基础,在空置的0xA0-0xFF的范围内,加入96个字母及符号,藉以供使用附加符号的拉丁字母语言使用。

总之,ASCII 码只能用于纯英文环境下,不能用于一些带有附加符号的拉丁文字( Š、š、Ž、ž)以及其他符号,所以在 ASCII 基础上扩展出 ISO-8859-1 编码。大多用于欧洲语言(比如法语、德语、西班牙语等),也可用于其他地区语言(比如印尼语、马来语等)。

 

ISO-8859-1编码规则如下:

  •  0x00-0x7F 属于原 ASCII 区块
  • 0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定义

如下代码验证,可打印如上图展示结果:

 

public class ISO_8859_1 {
    private static final String ISO88591 = "ISO-8859-1";
    private static void print() throws Exception {
        byte[] bytes = new byte[1];
        int count = 0;
        for (int code = 0x00; code <= 0xFF; code ++) {
            bytes[0] = (byte) code;
            System.out.print(new String(bytes, ISO88591) + " ");
            if (++count % 16 == 0) {
                System.out.println();
                count = 0;
            }
        }
    }
    public static void main(String[] args) throws Exception {
        print();
    }
}

  

GB2312:

GB2312或GB2312–80是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称GB0,由中国国家标准总局发布,1981年5月1日实施。GB 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。

共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。

 

通常采用 EUC-CN 作为 GB2312 的表示法。EUC-CN 分为 4 个码集(GB2312 只用到码集0、码集1):

 

码集0:单字节表示,范围是 0x21-0x7E,对应的是 ASCII 的可显示字符范围,这么做主要是为了兼容 ASCII

码集1:双字节表示,第一个字节称为“高位字节”,第二个字节称为“低位字节”。

高位字节:范围是 0xA1-0xF7,用于对字符进行分区处理,每区 94 个字符

低位字节:范围是 0xA1-0xFE,对应各个区块的各个字符,94 个字符

码集1的高位字节用于对字符进行分区处理:

 

0xA1-0xA9:01-09区(0xA1 = 0x01 + 0xA0,0xA0是基准数值),特殊字符

0xB0-0xD7:16-55区,一级汉字,按拼音排序的汉字

0xD8-0xF7:56–87区,二级汉字,按部首/笔画排序

 

10–15区及88–94区则未有编码。所以 GB2312 共收录汉字数量应为:(40 + 32) * 94 = 6768 个,但是一级汉字区块里的最后 5 个字符没有编码,所以实际收录汉字数量为:6768 - 5 = 6763 个。

 

GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB2312不能处理,因此后来GBK及GB18030汉字字符集相继出现以解决这些问题。

代码运行验证可知:

 

public class GB2312 {
    private static final String GB2312 = "GB2312";
    private static final int BASE = 0xA0;
    private static void printSet0() throws Exception {
        byte[] bytes = new byte[1];
        for (int code = 0x21; code <= 0x7E; code++) {
            bytes[0] = (byte) code;
            System.out.print(new String(bytes, GB2312));
        }
        System.out.println();
    }
    private static void printSet1(int highBegin, int highEnd) throws Exception {
        byte[] bytes = new byte[2];
        for (int high = highBegin; high <= highEnd; high++) {
            System.out.print(high + ": ");
            bytes[0] = (byte) (BASE + high);
            for (int low = 1; low <= 94; low++) {
                bytes[1] = (byte) (BASE + low);
                System.out.print(new String(bytes, GB2312) + "");
            }
            System.out.println();
        }
    }
    public static void main(String[] args) throws Exception {
        System.out.println("\n码集0[ASCII可显示字符]: ");
        printSet0();
        System.out.println("\n码集1[PART1 特殊符号]: ");
        printSet1(1, 9);
        System.out.println("\n码集1[PART2 一级汉字]: ");
        printSet1(16, 55);
        System.out.println("\n码集1[PART3 二级汉字]: ");
        printSet1(56, 87);
    }
}

  

GBK:

汉字内码扩展规范,称GBK,全名为《汉字内码扩展规范(GBK)》1.0版,由中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司和电子工业部科技与质量监督司1995年12月15日联合以《技术标函[1995]229号》文件的形式公布。 GBK共收录21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

由于GB1312编码范围实在有限,很多繁体字、新简化字、日语等都不支持,所以推出了 GBK 编码。GBK 编码完全兼容 GB1312,也就是说 GB1312 编码的数据,可以用 GBK 进行正常解码。

 

编码方式与 GB1312 类似,也包含单字节和双字节两种方式:

单字节:范围 00–7F,与 ASCII 完全一致,注意 GB1312 仅支持部分 ASCII

 

双字节:完全兼容 GB1312 的双字节,

如下:

 

 可以看出,GBK/1 和 GBK/2 与 GB1312 完全一致,其他区块是新扩展的编码。

以下是 GBK 编码图,可以看出GBK/1和GBK/2的领域即GB 2312-80用通常方法编码的区域。GB2312中对于AA–AF和F8–FE区域是空的,没有赋予编码。于是GBK就在这些领域里进行拓展。二者剩余部分作为用户定义区。

 

UTF-8:

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部分修改,即可继续使用。

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。它废掉所有的地区性编码方案(比如 GB2312、GBK等等),统一使用 2 个字节(这里指的是 UCS-2,UCS-4使用 4 个字节)来表示所有字符,也就是说它能编码范围是 65536。

 

U+0000 - U+007F:128 个 ASCII 字符

U+0080 - U+07FF:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等

U+0800 - U+FFFF:其他基本多文种平面(BMP)中的字符(这包含了大部分常用字,如大部分的汉字)

U+10000 - U+7FFFFFFF:其他极少使用的Unicode 辅助平面的字符

Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

比如“二”字的unicode十六进制编码是:“4E8C”,对应二进制是:“100111010001100”共有15位,也就是说至少需要两个字节来存储。但是问题来了,在一段二进制流中如何区分这个字符是1个字节、还是2个字节?

 

UTF-8 就是 Unicode 的一种实现方式(还有其他实现方式,比如 UTF-16、UTF-10等),它的特点是用1-4个字节来存储一个字符,且是可变长度。Unicode 和 UTF-8 的转换关系如下:

 

对于 1 个字节,最高位(第 8 位)是0,则表示这是 1 个 ASCII 字符

对于 1 个字节,以 11 开头,则连续的 1 的个数表示这个字符的字节数,比如 110xxxxx 表示它是双字节 UTF-8 字符的首字节

对于 1 个字节,以 10 开头,则表示它不是首字节,需要向前查找得到当前字符的首字节

UTF-8使用1-6个字节为每个字符编码:

 

U+0000 - U+007F:1 个字节

U+0080 - U+07FF:2 个字节

U+0800 - U+FFFF:3 个字节

U+10000 - U+1FFFFF:4 个字节

U+200000 - U+3FFFFFF:5 个字节

U+4000000 - U+7FFFFFFF:6 个字节

例如:

 

例如"汉"字的Unicode编码是6C49。6C49在0800-FFFF之间,所以要用3字节模板:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 1100 0100 1001,将这个比特流按三字节模板的分段方法分为0110 110001 001001,依次代替模板中的x,得到:1110-0110 10-110001 10-001001,即E6 B1 89,这就是UTF8编码。

 

本文节选整理自其它文章,仅作备忘之用。感谢受用

 

  • 大小: 271.7 KB
  • 大小: 53.7 KB
  • 大小: 77.8 KB
  • 大小: 132.9 KB
分享到:
评论

相关推荐

    java字符编码错误整理大全

    - **UTF-8**:通用的多字节编码标准,广泛应用于网络传输。 #### 三、常见问题及解决方案 1. **处理.properties文件** 当读取.properties文件时,可能会出现乱码问题,这是因为文件本身的编码格式与程序解析时...

    京东-Java中级面试题 垃圾回收、字符编码、反射等基础题

    6. **UTF-8**:采用变长编码技术,不同类型的字符由1~6个字节组成,更加节省空间。 **2.3 utf-8中的中文编码** - **中文字符在utf-8编码下**:通常占用3个字节。 - **int型数据**:占用4个字节。 #### 三、代理...

    UC面试的相关题目

    常见的字符集有ASCII、GBK、GB2312、Unicode等。 - **编码**(Encoding):指的是字符集的具体实现方式,即如何将字符集中的字符转换成二进制数字。例如UTF-8、UTF-16等都是Unicode字符集的不同编码方案。 以上内容...

    AI从头到脚详解如何创建部署Azure Web App的OpenAI项目源码

    【AI】从头到脚详解如何创建部署Azure Web App的OpenAI项目源码

    人脸识别_卷积神经网络_CNN_ORL数据库_身份验证_1741779511.zip

    人脸识别项目实战

    人工智能-人脸识别代码

    人工智能-人脸识别代码,采用cnn的架构识别代码

    汽车配件制造业企业信息化整体解决方案.pptx

    汽车配件制造业企业信息化整体解决方案

    短期风速预测模型,IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是,网上复现 评价指标:R方、MAE、MAPE、RMSE 附带测试数据集运行(风速数据) 提示:在

    短期风速预测模型,IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是,网上复现 评价指标:R方、MAE、MAPE、RMSE 附带测试数据集运行(风速数据) 提示:在MATLAB2024a上测试正常 ,短期风速预测模型; IDBO-BiTCN-BiGRU-Multihead-Attention; 评价指标: R方、MAE、MAPE、RMSE; 复现; 测试数据集; MATLAB 2024a,短期风速预测模型:IDBO-BiTCN-BiGRU-Attention集成模型

    手势识别_数据融合_运动融合帧_Pytorch实现_1741857761.zip

    手势识别项目实战

    智慧园区IBMS可视化管理系统建设方案PPT(61页).pptx

    在智慧园区建设的浪潮中,一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点,通过信息化平台与智能硬件的深度融合,为园区带来前所未有的变革。 首先,智慧园区综合解决方案以提升园区整体智能化水平为核心,打破了信息孤岛现象。通过构建统一的智能运营中心(IOC),采用1+N模式,即一个智能运营中心集成多个应用系统,实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”,利用大数据可视化技术,将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上,管理者可直观掌握园区运行状态,实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒,还大幅提升了管理效率,让园区管理更加精细化、智能化。 更令人兴奋的是,该方案融入了诸多前沿科技,让智慧园区充满了未来感。例如,利用AI视频分析技术,智慧园区实现了对人脸、车辆、行为的智能识别与追踪,不仅极大提升了安防水平,还能为园区提供精准的人流分析、车辆管理等增值服务。同时,无人机巡查、巡逻机器人等智能设备的加入,让园区安全无死角,管理更轻松。特别是巡逻机器人,不仅能进行360度地面全天候巡检,还能自主绕障、充电,甚至具备火灾预警、空气质量检测等环境感知能力,成为了园区管理的得力助手。此外,通过构建高精度数字孪生系统,将园区现实场景与数字世界完美融合,管理者可借助VR/AR技术进行远程巡检、设备维护等操作,仿佛置身于一个虚拟与现实交织的智慧世界。 最值得关注的是,智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程,实现降本增效。例如,智能库存管理、及时响应采购需求等举措,大幅减少了库存积压与浪费;而设备自动化与远程监控则降低了维修与人力成本。同时,借助大数据分析技术,园区可精准把握产业趋势,优化招商策略,提高入驻企业满意度与营收水平。此外,智慧园区的低碳节能设计,通过能源分析与精细化管理,实现了能耗的显著降低,为园区可持续发展奠定了坚实基础。总之,这一综合解决方案不仅让园区管理变得更加智慧、高效,更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境,是未来园区建设的必然趋势。

    相亲交友系统源码 V10.5支持婚恋相亲M红娘系统.zip

    相亲交友系统源码 V10.5支持婚恋相亲、媒婆返利、红娘系统、商城系统等等 这款交友系统功能太多了,适合婚恋相亲,还有媒婆婚庆等等支持 PC和 H5还有小程序,可封装红年、APP,里面带安装教程

    单片机也能玩双核之你想不到c技巧系列-嵌入式实战(资料+视频教程)

    本资源《单片机也能玩双核之你想不到的C技巧系列——嵌入式实战》涵盖 双核单片机开发、C语言高级技巧、嵌入式系统优化 等核心内容,结合 实战案例与视频教程,帮助开发者深入理解并掌握高效编程技巧。 适用人群: 适合 嵌入式开发工程师、单片机开发者、电子信息相关专业学生,以及希望提升 C语言编程能力 和 嵌入式项目经验 的技术人员。 能学到什么: 双核单片机开发思路,提高并行处理能力。 C语言高级技巧,提升代码优化与执行效率。 嵌入式系统调试方法,掌握实际项目中的调试策略。 实战案例解析,学习如何在实际工程中应用双核技术。 阅读建议: 建议 先学习基础知识,再结合 示例代码与视频教程 进行实操,重点关注 代码优化、调试技巧与双核应用模式,通过实战演练提高嵌入式开发能力。

    计算机视觉_OpenCV_人脸识别_成本节约检测方案_1741779495.zip

    人脸识别项目源码实战

    `机器学习_深度学习_Keras_教程用途`.zip

    人脸识别项目源码实战

    地铁网络_Dijkstra_最短路径_查询工具_1741862725.zip

    c语言学习

    红外光伏缺陷目标检测模型,YOLOv8模型 基于红外光伏缺陷目标检测数据集训练,做了必要的数据增强处理,以达到缺陷类别间的平衡 可检测大面积热斑,单一热斑,二极管短路和异常低温四类缺陷 测试集指标如

    红外光伏缺陷目标检测模型,YOLOv8模型 基于红外光伏缺陷目标检测数据集训练,做了必要的数据增强处理,以达到缺陷类别间的平衡 可检测大面积热斑,单一热斑,二极管短路和异常低温四类缺陷 测试集指标如图所示 ,核心关键词:红外光伏缺陷目标检测模型; YOLOv8模型; 数据增强处理; 缺陷类别平衡; 大面积热斑; 单一热斑; 二极管短路; 异常低温。,基于YOLOv8的红外光伏缺陷检测模型

    基于PLC的自动浇花控制系统 西门子1200PLC博途仿真,提供HMI画面,接线图,IO分配表,演示视频,简单讲解视频 博图15.1及以上版本均可使用 ,核心关键词: PLC自动浇花控制系统; 西

    基于PLC的自动浇花控制系统 西门子1200PLC博途仿真,提供HMI画面,接线图,IO分配表,演示视频,简单讲解视频 博图15.1及以上版本均可使用 ,核心关键词: PLC自动浇花控制系统; 西门子1200PLC博途仿真; HMI画面; 接线图; IO分配表; 演示视频; 简单讲解视频; 博图15.1及以上版本。,基于PLC的自动浇花系统:西门子1200PLC博途仿真实践教程

    智慧园区标准化综合解决方案PPT(60页).pptx

    在智慧园区建设的浪潮中,一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点,通过信息化平台与智能硬件的深度融合,为园区带来前所未有的变革。 首先,智慧园区综合解决方案以提升园区整体智能化水平为核心,打破了信息孤岛现象。通过构建统一的智能运营中心(IOC),采用1+N模式,即一个智能运营中心集成多个应用系统,实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”,利用大数据可视化技术,将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上,管理者可直观掌握园区运行状态,实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒,还大幅提升了管理效率,让园区管理更加精细化、智能化。 更令人兴奋的是,该方案融入了诸多前沿科技,让智慧园区充满了未来感。例如,利用AI视频分析技术,智慧园区实现了对人脸、车辆、行为的智能识别与追踪,不仅极大提升了安防水平,还能为园区提供精准的人流分析、车辆管理等增值服务。同时,无人机巡查、巡逻机器人等智能设备的加入,让园区安全无死角,管理更轻松。特别是巡逻机器人,不仅能进行360度地面全天候巡检,还能自主绕障、充电,甚至具备火灾预警、空气质量检测等环境感知能力,成为了园区管理的得力助手。此外,通过构建高精度数字孪生系统,将园区现实场景与数字世界完美融合,管理者可借助VR/AR技术进行远程巡检、设备维护等操作,仿佛置身于一个虚拟与现实交织的智慧世界。 最值得关注的是,智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程,实现降本增效。例如,智能库存管理、及时响应采购需求等举措,大幅减少了库存积压与浪费;而设备自动化与远程监控则降低了维修与人力成本。同时,借助大数据分析技术,园区可精准把握产业趋势,优化招商策略,提高入驻企业满意度与营收水平。此外,智慧园区的低碳节能设计,通过能源分析与精细化管理,实现了能耗的显著降低,为园区可持续发展奠定了坚实基础。总之,这一综合解决方案不仅让园区管理变得更加智慧、高效,更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境,是未来园区建设的必然趋势。

    大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案.pptx

    大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案

    基于STM32的水质 浊度检测仪设计与实现(详细设计说明书+ 10008-基于STM32的水质 浊度检测仪设计与实现(详细设计说明书+原理图PCB工程+源码工程+实物照片) 本次设计是设计一款水质检

    基于STM32的水质 浊度检测仪设计与实现(详细设计说明书+ 10008-基于STM32的水质 浊度检测仪设计与实现(详细设计说明书+原理图PCB工程+源码工程+实物照片) 本次设计是设计一款水质检测设备,实现温度检查、水质检测的功能,将检测到的数据显示到显示器中,并实时记录系统的参数 本次系统需要对温度检测,使用的传感器为DS18B20,通过单总线的方式来完成系统温度检测 使用水质检测模块检查水的质量 通过传感器检测到的数据计算后的值实时刷新到显示器中,主要的功能包括以下几点: ①可以对温度实时检测; ②可以对水质实际值实时检测; ③水质浑浊预警 主要特点: 1.以STM32单片机为核心,配合水质模块; 2.主要完成系统的 功能控制、状态显示、信息检测以及报警硬件组建所单片机和传感器等元器件的选择; 3.完成系统控制的软件设计编程; 4.实现对水质检测、温度检查、预警的功能 内容包含: 1、原理图工程 2、PCB工程 3、源码工程 4、实物照片 5、详细介绍说明书-22531字 6、实物照片 7、浊度传感器资料

Global site tag (gtag.js) - Google Analytics