`
frank1998819
  • 浏览: 764938 次
  • 性别: Icon_minigender_1
  • 来自: 南京
文章分类
社区版块
存档分类

一个汉字在UTF-8 编码中占几个字节(转)

    博客分类:
  • Java
 
阅读更多

一个汉字在UTF-8编码中占用几个字节?没敢作答,因为选项中没有答案。

UTF-8编码是变长的,1—6个字节。其中汉字编码,是3个或4个字节。查一下UTF-8字符映射表,就可以看到以下结果:

占用3个字节的范围

U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3 共 115 个
U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95 共 213 个
U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9 共 36 个
U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5 共 7549 个
U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA 共 44138 个
U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99 共 105 个

合计: 52156

占用4个字节的范围

U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D 共 64029 个

合计: 64029

所以,我认为答案应该是:3个或4个字节。

分享到:
评论

相关推荐

    GBK编码转换和UTF-8编码转换模块源码

    UTF-8的一个重要特性是对ASCII字符集的兼容性,ASCII字符在UTF-8编码下只占用一个字节,这使得UTF-8在互联网上被广泛应用,因为它可以无缝地与大部分基于ASCII的系统交互。 在资源中提到的“GBK编码转换为URL编码”...

    UTF-8编码转换器

    总的来说,“UTF-8编码转换器”是一个实用的工具,对于那些需要处理多种语言文本或者在不同系统间交换数据的人来说非常有价值。通过它可以轻松解决编码兼容性问题,使得数据在不同环境中的传输和使用更加顺畅。

    pb12 gb转utf-8

    转换“pb12 gb转utf-8”意味着你可能有一个使用PowerBuilder 12编写的程序或数据库,其中的数据是以GBK编码存储的,现在需要将这些数据转换为UTF-8编码以便在更广泛的环境中使用或与其他系统进行兼容。 这个过程...

    gb2312,utf-8,utf-8-bom等编码格式的互相转换

    UTF-8-BOM,全称是“UTF-8 Byte Order Mark”,它在UTF-8编码的文件开头添加了一个特殊的字节序列(0xEF, 0xBB, 0xBF)来标识该文件使用的是UTF-8编码。BOM主要用于帮助软件识别文件的编码,但并非所有UTF-8编码的...

    UTF-8转ANSI文本文件转换器

    "UTF-8转ANSI文本文件转换器"就是这样一个工具,它能够帮助用户批量将UTF-8编码的文本文件转换为ANSI编码的文本文件。在此,我们将深入探讨UTF-8和ANSI编码的原理以及转换过程中涉及的关键知识点。 **一、UTF-8编码...

    批量将文件编码方式由ansi转为utf-8

    标题"批量将文件编码方式由ansi转为utf-8"涉及到的是一个文件处理任务,即转换大量以ANSI编码存储的文件到UTF-8编码。这通常是由于ANSI编码不支持某些非英文字符,或者在跨平台交互时可能会遇到问题,而UTF-8编码则...

    UTF-8 Unicode GBK GB2312 编码之间的区别和联系

    - 对于含有大量英文字符的网站或论坛,建议使用UTF-8编码,因为它更节省空间且具有更好的国际通用性。 - 对于需要支持GBK编码的插件或软件,在没有UTF-8支持的情况下,可能需要使用GBK编码。 #### 八、总结 UTF-8...

    GBK 与 UTF-8 间编码转换

    相反,从UTF-8到GBK的转换则需要识别出UTF-8编码的字节序列,找到对应的Unicode码点,再查找这个码点在GBK编码中的对应双字节序列。 在进行编码转换时,需要注意以下几点: 1. 检查原始文件的编码格式,避免乱码...

    c gbk和 utf-8 转换

    - Unicode码点转换为UTF-8的过程相对复杂,因为UTF-8编码是变长的,根据Unicode码点的大小,可能会占用1到4个字节。 - 对于小于128的码点(ASCII字符),直接用单字节表示,最高位为0。 - 对于大于127的码点,...

    UCS-2转换为utf-8代码

    UTF-8 编码形式使用 1 到 4 个字节表示一个 Unicode 字符。 UCS-2 转换为 UTF-8 要将 UCS-2 转换为 UTF-8,需要将每个 UCS-2 字符转换为对应的 UTF-8 字符。这个过程可以使用 UCS2toUTF8Code 函数实现,该函数将 ...

    gb2312与utf-8转换

    从提供的文件列表来看,"GB2312转UTF-8编码 互转工具.exe" 就是一个用于进行编码转换的实用程序。这类工具通常会提供简单的界面,用户只需选择需要转换的文件,然后指定目标编码格式,即可完成转换。"Readme-说明....

    易语言判断UTF-8字符

    在易语言中,有时候我们需要判断一个字符串是否是UTF-8编码的,这就需要用到"IsTextUTF8"这样的函数。 `IsTextUTF8`函数是易语言中用于检测字符串是否符合UTF-8编码规范的函数。这个函数会检查字符串的每个字节,...

    Eclipse项目的GBK编码转为UTF-8插件

    当开发者将一个原本使用GBK编码的Eclipse项目导入到Android Studio时,由于Android Studio默认使用的是UTF-8编码,可能会遇到编码不匹配的问题,导致代码显示乱码或编译错误。解决这个问题通常需要手动逐个文件转换...

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    例如,将一个UTF-8编码的字符串转换为Unicode编码的字符串: ```java String utf8Str = "中文"; String unicodeStr = new String(utf8Str.getBytes("UTF-8"), "UTF-8"); ``` #### 6. 示例分析 - **从GBK到ISO-...

    ASP 生成静态网页(UTF-8)

    在涉及到UTF-8编码时,我们确保生成的静态网页能够正确显示多种语言的字符,特别是非英文字符,如中文、日文、韩文等。 在ASP中生成静态网页的过程主要包括以下步骤: 1. **动态数据获取**:首先,ASP脚本需要获取...

    易语言源码将文本转换为UTF-8码.rar

    4. **写入UTF-8文本**:转换后的UTF-8编码文本需要保存到新的文件中,可以使用“写文本文件全部”命令将文本写入到指定的文件,确保文件是以UTF-8编码保存的。 5. **错误处理**:在进行编码转换过程中,可能会遇到...

    通过javascript进行UTF-8编码的实现方法

    对于一个英文字符"A",它在Unicode中的码值是65,范围在0-127之间,因此在UTF-8编码中它仍然只占用一个字节。将"A"转换为二进制后得到"1000001",补码操作就是将"1000001"按照"0xxxxxxx"的模式进行填充,最终得到UTF...

    ANSII文件转UTF-8

    例如,一个使用ANSII编码的文件在预期使用UTF-8编码的环境中打开时,由于字符集不匹配,会出现无法识别的字符,呈现为乱码。 在这种情况下,我们需要进行文件编码转换。提供的压缩包文件“Ansi 2 Utf8.exe”很可能...

    字符编码转换(GB2312,UTF-8,UNICODE)

    2. UTF-8编码:UTF-8是Unicode Transformation Format的缩写,是一种变长的Unicode编码方式。它可以表示Unicode字符集中所有的字符,包括各种语言的特殊字符。UTF-8的最大特点是兼容ASCII编码,前128个字符(0-127)...

    utf-8转换asii-2码的转换工具

    转换过程中需要注意的是,UTF-8编码的非ASCII字符在ASCII-2中可能无法表示,这时需要进行替换或忽略,否则会导致乱码。 转换过程通常涉及以下几个步骤: 1. 解析UTF-8文本:读取UTF-8编码的文件,按照UTF-8的规则...

Global site tag (gtag.js) - Google Analytics