`
duty_001
  • 浏览: 36225 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

Unicode 转UTF-8

    博客分类:
  • PHP
阅读更多
基础知识
UTF-8   UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:   
Unicode编码(16进制) ║ UTF-8 字节流(二进制)  
000000 - 00007F ║ 0xxxxxxx   
000080 - 0007FF ║ 110xxxxx 10xxxxxx   
000800 - 00FFFF ║ 1110xxxx 10xxxxxx 10xxxxxx  
010000 - 10FFFF ║ 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx  
    UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。   例1:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。   例2:Unicode编码0x20C30在0x010000-0x10FFFF之间,使用用4字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。
参考文章:
http://baike.baidu.com/view/40801.htm

//从Unicode转到UTF8   PHP
function uc2html($str) {

   $ret = '';

   for( $i=0; $i<strlen($str)/2; $i++ ) {

       $charcode = ord($str[$i*2])+256*ord($str[$i*2+1]);//得到每个unicode

             if($charcode<127)

         $ret .=chr($charcode);//127以前ASCII,UTF-8一样

       else

         $ret .= $this->u2utf8($charcode);//转换成UTF-8

   }

       return $ret;

}

function u2utf8($c) {
$str="";
if ($c < 0x80) {
  $str.=$c;
} else if ($c < 0x800) {
  $str.=chr(0xC0 | $c>>6);
  $str.=chr(0x80 | $c & 0x3F);
} else if ($c < 0x10000) {
  $str.=chr(0xE0 | $c>>12);
  $str.=chr(0x80 | $c>>6 & 0x3F);
  $str.=chr(0x80 | $c & 0x3F);
} else if ($c < 0x200000) {
  $str.=chr(0xF0 | $c>>18);
  $str.=chr(0x80 | $c>>12 & 0x3F);
  $str.=chr(0x80 | $c>>6 & 0x3F);
  $str.=chr(0x80 | $c & 0x3F);
}
return $str;
}
 
 
分享到:
评论

相关推荐

    lvgl unicode 转 utf-8小工具

    lvgl unicode 转 utf-8小工具

    国际化字符转码器 unicode 转 utf-8 utf-8 转 unicode

    unicode -&gt; utf-8 utf-8 -&gt; unicode 国际化必备工具

    UNICODE与UTF-8转换

    在某些编程语言中,如Python,可以使用内置的函数实现转换,如`str.encode('utf-8')`将UNICODE字符串转换为UTF-8,`str.decode('utf-8')`将UTF-8字符串解码回UNICODE。 **五、实际应用** 在处理文本数据时,了解...

    unicode转utf8格式

    通过对给定代码的详细解析,读者可以了解到 Unicode 转 UTF-8 的核心算法及其背后的原理。在实际应用中,这种转换是非常常见且必要的,尤其是在处理多语言环境下的文本数据时尤为重要。掌握 Unicode 和 UTF-8 的转换...

    文本文件编码转换:ANSI、Unicode、UTF-8相互转换(修改版)

    Unicode --&gt; UTF-8 UTF-8 --&gt; ANSI UTF-8 --&gt; Unicode UTF-8 --&gt; Unicode big endian ansi转别的,不检验BOM,一律作为ansi编码进行转换 unicode转别的,首先检验BOM,不合格不转换 utf8转别的,首先检验BOM,不...

    unicode转utf-8

    编码转换工具,支持unicode编码生成utf-8编码值

    字符集Unicode与UTF-8之间的转换

    "字符集Unicode与UTF-8之间的转换" 在计算机科学中,字符集和编码方式是非常重要的概念,特别是在多语言环境中。Unicode和UTF-8是两种常用的字符集和编码方式,本文将详细介绍它们之间的转换。 Unicode Unicode是...

    Unicode编码转UTF-8编码程序

    Unicode转UTF-8

    ASCII Unicode 和UTF-8区别

    ASCII Unicode 和 UTF-8 的区别 ASCII 码是美国在 20 世纪 60 年代制定的字符编码标准,它规定了 128 个字符的编码,每个字符对应一个二进制代码,共占用一个字节的后 7 位,最前面的 1 位统一规定为 0。ASCII 码...

    c#源码转换为utf-8

    c#源码转换为utf-8,格式为类库,调用即可

    字符编码转换类,支持 ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换

    "CharsetConv"类提供了一个工具,帮助开发者在ANSI、Unicode(Little Endian和Big Endian)、UTF-8及UTF-8+BOM之间灵活转换,从而避免编码问题带来的困扰。通过深入学习和实践,开发者可以更好地应对各种编码挑战,...

    c gbk和 utf-8 转换

    2. Unicode转UTF-8: - Unicode码点转换为UTF-8的过程相对复杂,因为UTF-8编码是变长的,根据Unicode码点的大小,可能会占用1到4个字节。 - 对于小于128的码点(ASCII字符),直接用单字节表示,最高位为0。 - ...

    GBK Unicode UTF8码的相互转换源程序(C#语言)

    // UTF-8转Unicode byte[] utf16Bytes = Encoding.Unicode.GetBytes(original); string unicodeString = Encoding.Unicode.GetString(utf16Bytes); // Unicode转UTF-8 byte[] utf16ToUtf8Bytes = Encoding....

    批量转 GBK 转 UTF-8 gb2312 Iso-8959-1 转 UTF-8

    在标题和描述中提到的“批量转 GBK 转 UTF-8”、“gb2312 转 UTF-8”以及“Iso-8859-1 转 UTF-8”是指将使用这些编码格式的文件转换成UTF-8编码。这是因为UTF-8具有广泛的兼容性和通用性,许多系统和软件默认使用UTF...

    PB9转换utf-8例子

    UTF-8是一种广泛使用的Unicode字符编码,能够表示Unicode字符集中几乎所有的字符,包括世界各地的多种语言文字。 在压缩包的文件列表中,有四个与PowerBuilder相关的文件(utf-8.pbl、utf-8.pbt、utf-8.pbw)和三个...

    pb12 gb转utf-8

    UTF-8是一种多字节的Unicode编码方式,可以表示世界上几乎所有的字符,包括各种语言的字符。它是互联网上最常用的字符编码格式,因为它兼容ASCII,并且在处理多种语言时具有良好的通用性。 转换“pb12 gb转utf-8”...

    C++ 实现unicode到utf-8的转码

    在C++中实现Unicode到UTF-8的转换,我们需要知道Unicode字符的码点,并根据码点值将其转换为相应的UTF-8字节序列。以下是一般步骤: 1. 首先,获取Unicode字符串。这通常涉及到读取宽字符数组或`wstring`对象。 2. ...

    c++ UTF-8 UTF-16转换

    UTF-8和UTF-16是两种广泛使用的Unicode编码格式,它们各自有其特性和应用场景。本文将深入探讨如何利用C++来实现这两种编码格式之间的转换,并讨论在转换过程中可能遇到的错误处理问题。 首先,让我们了解一下UTF-8...

    Txt批量转UTF-8的工具

    2. UTF-8编码:这是一种Unicode的变体,支持几乎世界上所有的字符,包括汉字、日文、韩文等。UTF-8的特点是它使用1至4个字节表示一个字符,英文字符和ASCII字符只占用1个字节,这使得它在互联网上传输和存储时更为...

    UTF-8toGBK_labview编码gbk_LabVIEWUTF-8_utf-8toGbk_

    UTF-8的优势在于对ASCII字符集的兼容性,前128个Unicode字符(包括英文、数字和常见符号)只需要一个字节表示,这使得UTF-8在互联网上广泛使用,因为其与ASCII的兼容性可以减少传输数据量。此外,UTF-8也支持全球大...

Global site tag (gtag.js) - Google Analytics