相关推荐
-
ASCII、Unicode、UCS-2、UTF-8互转编码原理
Unicode的范围为 【0-0x10FFFF】,换算成10进制为【0-1114111】有0-1,114,112个字符,所以100多万个字符是足以支持世界上的任何语言的世界上存在着多种编码方式, 同一个二进制数字可以被解释成不同的符号. 因此, 要想打开一个文本文件, 就必须知道它的编码方式, 否则用错误的编码方式解读, 就会出现乱码.为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样.
-
网络字节顺序
字节序,顾名思义字节的顺序,再多说两句就是大于一个字节类型的数据在内存中的存放顺序(一个字节的数据当然就无需谈顺序的问题了)。其实大部分人在实际的开发中都很少会直接和字节序打交道。唯有在跨平台以及网络程序中字节序才是一个应该被考虑的问题。 在所有的介绍字节序的文章中都会提到字...
-
UTF-8 and Unicode FAQ
UTF-8 and Unicode FAQby Markus Kuhn 中国LINUX论坛翻译小组 xLoneStar[译] 2000年2月 这篇文章说明了在 POSIX 系统 (Linux,Unix) 上使用 Unicode/UTF-8 所需要的信息. 在将来不远的几年里, Unicode 已经很接近于取代 ASCII 与 Latin-1 编码的位置了. 它不仅允许你处理处理事实上存在于
-
Unicode和UCS
unicode,中文叫万国码,统一码,是统一码联盟为了世界上大多数文字系统进行整理和编码。 unicode2.0后基本和ISO 10646规范保持一致. 和unicode类似,iso组织也在做同样的事情,iso开展了 ISO/IEC 10646项目,名字叫“ Universal Multiple-Octet Coded Character Set”,简称UCS。 后来,双方意识到时间上不需要2套通用的字符集,所以双方开始进行整合,到unicode2.0时,unicode的编码和ucs的编码都基本一致。 un
-
谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词
<br />这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:<br />问题一: <br />使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?<br />我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会
-
【原】UCS-2和UTF-8的互相转换
我们都知道对于UNICODE来说,UCS-2是内码,而UTF-8则是它的实现方式。每一个字节都有8个位,而对于UTF-8来说,每一个字节的前两位尤为重要,按照前两位的不同,一共有四种排列组合:00xxxxxx,01xxxxxx,10xxxxxx,11xxxxxx。 按照UTF-8标准, (1)所有以0开始的字节,都与原来的ASCII码兼容,也就是说,0xxxxxxx不需要额外转换,就是...
-
[转]编码字符集(Unicode、UCS)和字符集编码(UTF-8、UTF-16、UTF-32)以及surrogates、code point和code unit
今天看到一篇特别好的文章,转发一下。原链接:http://www.360doc.com/content/12/0420/13/9470897_205152817.shtml简单来说:Unicode和UCS都是编码字符集,而UTF-8、UTF-16、UTF-32指的是字符集编码,至于GB2312,GBK 指的既是编码字符集也是字符集编码。 所谓surrogates,是UTF-16在编码时采用的一种方案:补充字符使用两个char型变量来表示,这两个char型变量就组成了所谓的surrogate pair(在底层
-
Unicode、UCS、BMP、UTF-8、UTF-16、UTF-32
Unicode是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"UnicodeCharacter Set"的缩写。 UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字...
-
编码格式科普ASCII unicode utf-8 usc-2 GB2312
3.unicode (以及升级版的usc-2和utf-8)一种全球化的标准字符码,包含了全世界所有的语言、文字、符号,usc-2和utf-8为unicode的升级版。usc-2用16位(16比特)(16bit)(2b)(2byte)(2字节)表示一个字符,最多可以表示2的16次方个字符,即65535个字符。utf-8是usc-2的升级版(包含usc-2的所有字符,向下兼容),用1-4个字节表示一个字符,即最多表示4个byte即2的32次方=4294967296(十进制)个数字。
-
Unicode编码以及UTF、UCS等概念理解
最近在搞一个服务器打包软件,因为在打包软件中,会调用很多配置文件,这些配置文件,开始的时候,我为了方便很多都是用的GB2312编码,开始完成了以后,打包简体中文版本的我们公司的服务器,没有任何问题,一切正常;过了一段时间,海外事业部要求我给他们打包一个繁体中文的服务器,以适应台湾等地区的要求,这下就把我难住了,因为整个打包程序的编码格式都要改为Unicode的编码。那么问题就来了,原...
-
转 C++11与Unicode及使用标准库进行UTF-8、UTF-16、UCS2、UCS4/UTF-32编码转换 utf8转utf16 utf16转utf8
http://www.cppblog.com/Error/archive/2014/09/25/208413.html
-
实现UTF-8、UCS2编码和解码
编码的原理知识可以看:https://www.zhihu.com/question/23374078 public void encodeDecode(){ String str = "测试字符转换"; try { //使用 URLEncoder、URLDecoder方法实现 String strGBK = URL
-
中文编码 1:常见中文编码格式
为什么要有中文编码格式? 最早的ASCII码只包括了字母、标点符号、特殊字符等127个字符。这些字符对于拉丁语系国家的人使用是足够的,但是对于非拉丁语系国家(如中国、日本等),ASCII码就远远不够了。因此就需要编码来表示大量的汉字字符。 常用的几种中文编码格式: 1、Unicode编码 Unicode编码通常由两个字节组成,称作USC-2,个别偏僻字...
-
utf8和ucs2互转
UFT8和UCS2互转效API使用进行拆分字数如图 /* * 函数: * utf8_to_ucs2(utf8转ucs2) * 参数: * utf8:utf8数据 * utf8_lenght:utf8数据长度 * ucs2:保存ucs2数据空间 * ucs2_lenght:保存ucs2数据空间长度 * 返回值: * 返回转换后的ucs2字节长度 * ...
-
linux utf8 转 ucs-2,Linux string conversion from UTF-8 to UNICODE, UCS-4LE, UCS-4LE
Linux string conversion from UTF-8 to UNICODE, UCS-4LE, UCS-4LE.It is astonishing for windows developers that Linux has two distinct difference to Windows character set.1. standard char * is default ...
-
各种字符编码方式详解及由来(ANSI,GB2312,GBK,UNICODE,UTF-8)
一直对字符的各种编码方式懵懵懂懂,什么ANSI、GB2312、GBK、DBCS、UCSUNICODE、UTF-8……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go! 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以...
-
一篇读懂Unicode,UCS-2,UTF-8,UTF-16
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。 PS:UTF-8原始规范可以使用1-6个字
4 楼 mengyancui 2011-08-04 00:13
3 楼 kxys422834 2011-08-03 18:48
2 楼 Pigwen 2011-08-03 09:31
1 楼 bestlun 2011-08-03 08:18