终于把unicode编码做了一个大致的了解了。
在学习的过程中知道了很多概念和相关的发展历史,对以前比较模糊的概念也有了比较深入的了解。
一些概念:
-
bom(byte order mark)用来区别是big endian(BE)还是little endian(LE)。
区别的方法: 在UTF-16文件的头2个字节里做个标记: LE [0xFF, 0xFE], BE [0xFE, 0xFF]; 而在UTF-8中,标记[0xEF, 0xBB, 0xBF],可有可无的
- Unicode的理解
- UCS(universal character set)通用字符集
- UTF-16
- UTF-8
- BMP(Basic Multilingual Plane),在表达一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在BPM里的所有字符,要用四位十六进制数,在BMP以外的需要使用五位或六位十六进制数。
看完总结出来的简单的思维导图。
每一个点上都有细节可以研究,例如utf-8,utf-16等都有各自的算法,各自的实现方式。
http://tech.idv2.com/2008/02/21/unicode-intro/
- 大小: 15.3 KB
分享到:
相关推荐
1. **跨平台兼容性**:由于Unicode编码标准的普及,无论是Windows、macOS还是Linux系统,都能识别并正确显示这些编码所对应的汉字,大大增强了汉字信息的通用性和可读性。 2. **国际化支持**:随着全球化的深入发展...
总的来说,C语言实现数字到Unicode码的转换涉及对Unicode编码的理解、选择合适的编码方案以及可能需要的字节顺序处理。在处理Unicode时,应确保充分理解其工作原理,以便编写出正确且高效的应用程序。
Unicode编码表是一种国际标准,用于文本的编码、处理和显示,它旨在为世界上所有的字符提供一个独一无二的数字,无论它们在哪个语言中。随着Unicode 10.0版本的发布,编码表内容进一步扩充,增加了新的字符,以满足...
Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有语言的字符提供唯一的数字标识。它由Unicode联盟制定,包括了各种文字系统,如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码,不同的计算机...
标题“通用规范汉字UNICODE码表”表明本文件内容涉及了UNICODE编码体系中的通用规范汉字部分。Unicode是一个全球性的字符编码标准,它为世界上绝大部分的文字系统提供了唯一编号。UNICODE码表在计算机领域内具有...
### 维吾尔文字符集Unicode编码表 #### 概述 本文档提供了一份详细的现代维吾尔文字符集的Unicode编码表。这份表格对于理解、处理和展示维吾尔语文字具有重要意义。通过这份表格,我们可以清晰地看到每一个维吾尔文...