相关推荐
-
UCS-2转换为utf-8代码
将ucs-2转换为utf-8代码集完整版
-
网络字节顺序
字节序,顾名思义字节的顺序,再多说两句就是大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。其实大部分人在实际的开发中都很少会直接和字节序打交道。唯有在跨平台以及网络程序中字节序才是一个应该被考虑的问题。 在所有的介绍字节序的文章中都会提到字...
-
UTF-8 and Unicode FAQ
UTF-8 and Unicode FAQby Markus Kuhn 中国LINUX论坛翻译小组 xLoneStar[译] 2000年2月 这篇文章说明了在 POSIX 系统 (Linux,Unix) 上使用 Unicode/UTF-8 所需要的信息. 在将来不远的几年里, Unicode 已经很接近于取代 ASCII 与 Latin-1 编码的位置了. 它不仅允许你处理处理事实上存在于
-
一篇读懂Unicode,UCS-2,UTF-8,UTF-16
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。 PS:UTF-8原始规范可以使用1-6个字
-
ASCII、Unicode、UCS-2、UTF-8互转编码原理
Unicode的范围为 【0-0x10FFFF】,换算成10进制为【0-1114111】有0-1,114,112个字符,所以100多万个字符是足以支持世界上的任何语言的世界上存在着多种编码方式, 同一个二进制数字可以被解释成不同的符号. 因此, 要想打开一个文本文件, 就必须知道它的编码方式, 否则用错误的编码方式解读, 就会出现乱码.为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样.
-
Unicode和UCS
unicode,中文叫万国码,统一码,是统一码联盟为了世界上大多数文字系统进行整理和编码。 unicode2.0后基本和ISO 10646规范保持一致. 和unicode类似,iso组织也在做同样的事情,iso开展了 ISO/IEC 10646项目,名字叫“ Universal Multiple-Octet Coded Character Set”,简称UCS。 后来,双方意识到时间上不需要2套通用的字符集,所以双方开始进行整合,到unicode2.0时,unicode的编码和ucs的编码都基本一致。 un
-
谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词
<br />这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:<br />问题一: <br />使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?<br />我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会
-
[转]用C语言实现UCS-2和UTF-8之间的互相转化
本文简单介绍UCS,UNICODE和UTF-8,并利用C语言实现了UTF-8与UCS2之间的互相转化。 1.什么是UCS和ISO10646? 国际标准ISO10646定义了通用字符集(Universal Character Set, UCS).UCS是所有其它字符集标准的一个超集,它保证也其它字符集双向兼容,即编码间相互转换不会丢失任何信息。UCS字符集U+0000到U+007
-
转帖----再谈编码
以下是本人从网上找的,旨在让程序员能真正掌握编码以及解决相关的问题谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词 这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode...
-
【原】UCS-2和UTF-8的互相转换
我们都知道对于UNICODE来说,UCS-2是内码,而UTF-8则是它的实现方式。每一个字节都有8个位,而对于UTF-8来说,每一个字节的前两位尤为重要,按照前两位的不同,一共有四种排列组合:00xxxxxx,01xxxxxx,10xxxxxx,11xxxxxx。 按照UTF-8标准, (1)所有以0开始的字节,都与原来的ASCII码兼容,也就是说,0xxxxxxx不需要额外转换,就是...
-
unicode和ucs的区别
unicode,中文叫万国码,统一码,是统一码联盟为了世界上大多数文字系统进行整理和编码。 unicode2.0后基本和ISO 10646规范保持一致. 和unicode类似,iso组织也在做同样的事情,iso开展了 ISO/IEC 10646项目,名字叫“ Universal Multiple-Octet Coded Character Set”,简称UCS。
-
[转]编码字符集(Unicode、UCS)和字符集编码(UTF-8、UTF-16、UTF-32)以及surrogates、code point和code unit
今天看到一篇特别好的文章,转发一下。原链接:http://www.360doc.com/content/12/0420/13/9470897_205152817.shtml简单来说:Unicode和UCS都是编码字符集,而UTF-8、UTF-16、UTF-32指的是字符集编码,至于GB2312,GBK 指的既是编码字符集也是字符集编码。 所谓surrogates,是UTF-16在编码时采用的一种方案:补充字符使用两个char型变量来表示,这两个char型变量就组成了所谓的surrogate pair(在底层
-
Unicode Basic
转载:Unicode详解 2008-08-30 13:41 Unicode详解 版权声明:可以任意转载,但转载时必须标明原作者charlee、原始链接http://tech.idv2.com/2008/02/21/unicode-intro/以及本声明。 ...
-
Unicode,utf-8,utf-16,utf-32,ucs16,ucs32关系
编码知识小结最早的编码是ascii,它只在1-127,用一个字节就可以表示出来。并且这个字节的第一个位是0。后来,很多国家的语言发现ascii表示的字符太少,比如中文是不可能表示了来的,所以每个国家都发展了自己的扩展编码,如中国的gb2312,台 湾的big5,日本的shift-jis等。各个国家的扩展编码有一点是相同的,就是都采用了最大长度为2的变长编码,这主要是为了
-
编码UTF8,UCS...
最近学习了下编码以下地址可以很好的学习到相关的知识http://dev.csdn.net/develop/article/69/69883.shtmhttp://dev.csdn.net/develop/article/72/72888.shtm其中讲了UTF8的编码当要表示的内容是 7位 的时候就用一个字节:0******* 第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内
-
Unicode、UCS、BMP、UTF-8、UTF-16、UTF-32
Unicode是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"UnicodeCharacter Set"的缩写。 UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字...
-
Unicode编码以及UTF、UCS等概念理解
最近在搞一个服务器打包软件,因为在打包软件中,会调用很多配置文件,这些配置文件,开始的时候,我为了方便很多都是用的GB2312编码,开始完成了以后,打包简体中文版本的我们公司的服务器,没有任何问题,一切正常;过了一段时间,海外事业部要求我给他们打包一个繁体中文的服务器,以适应台湾等地区的要求,这下就把我难住了,因为整个打包程序的编码格式都要改为Unicode的编码。那么问题就来了,原...
-
利用C语言实现UTF-8与UCS2之间的互相转化
本文简单介绍UCS,UNICODE和UTF-8,并利用C语言实现了UTF-8与UCS2之间的互相转化。 1.什么是UCS和ISO10646? 国际标准ISO10646定义了通用字符集(Universal Character Set, UCS). UCS是所有其它字符集标准的一个超集,它保证也其它字符集双向兼容,即编码间相互转换不会丢失任何信息。UCS字符集U+0000到U+007F与
-
utf8与ucs2互转
int ucs2_to_utf8(char high_byte,char low_byte, char *utf8){ if(high_byte == 0x00 && low_byte <= 0x7f){//00-00 utf8[0]=low_byte&0x7f; return 1; }else if((high_byte&0xf8)==0){/...
4 楼 mengyancui 2011-08-04 00:13
3 楼 kxys422834 2011-08-03 18:48
2 楼 Pigwen 2011-08-03 09:31
1 楼 bestlun 2011-08-03 08:18