VC 之 cout 与 wcout 区别及 wchar_t、CharSet、CodePage 等相关概念解析 (转载) -

jcair

浏览: 204566 次
性别:
来自: 成都

最近访客更多访客>>

wang_eye

ningt3344

suncathay

lihaijia

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

VC 之 cout 与 wcout 区别及 wchar_t、CharSet、CodePage 等相关概念解析 (转载)

博客分类：

编码转换

VC 之 cout 与 wcout 区别及 wchar_t、CharSet、CodePage 等相关概念解析 (转载)

图一
       实验平台信息见：《测试 VS 2010 对 C++ 0x 标准的谨慎支持》。
       先说两组概念：字符集（CharSet）与编码方案（Encoding Scheme）、源代码文件编码（Source file CharSet）与程

序文件编码（Exec file CharSet）。
       第一组，字符集与编码方案：
       字符集就是字符的数字代码集。有 ANSI/ASCII、MBCS（Multibytes）、Unicode 等。比如“汉”字 Unicode 代码为

0x6c49。
       编码方案就是记录字符代码的方式。有 UTF-8、UTF-16、GB2312 等。编码方案分“变长编码”与“定长编码”两种。

UTF-8 是变长编码，模板如下：
       0x0000 – 0x007F 表一字节 0xxxxxxx
       0x0080 – 0x07FF 表两字节 110xxxxx 10xxxxxx
       0x0800 – 0xFFFF 表三字节 1110xxxx 10xxxxxx 10xxxxxx
       比如 UTF-8 编码序列 11100110 10110001 10001001，由首字节判断为三字节模板，解析时连续读取三字节并将编码模

板去除，剩 0110 110001 001001，连在一起即为 01101100B 01001001B，也即 0x6c49，即“汉”字。
       字符集与编码方案概念分明，却互依互存。字符集与编码方案是配套的。比如提到 GB2312 编码，即是指 GB2312 字符

集与 GB2312 编码方案。此处 GB2312 为两字节定长编码。而提到 Unicode 编码，即指 Unicode 字符集与 UTF-X 编码方案。

其中 UTF-16 为两字节定长编码，UTF-8 设计为变长是为了工业应用中兼容已有的 ANSI/ASCII 编码，并广泛应用于互联网业

务。
       双字节定长编码为了与单字节编码区分，注意到单字节编码最高位为 0，故设定首字节最高位为 1，指示解析器需要连

续读取两字节。
       第二组，源码编码与程序编码：
       源码文件与生成的程序文件编码是两回事儿。源码文件编码是文本文件保存时指定的编码；而程序文件编码依赖系统环

境设置。
       第二组问题的焦点在于“常量字串”的处理上。常量字串在代码中是用源码文件编码记录的；而编译时将如何处理呢？

这就讨论到了 cout 与 wcout 之不同。
________________________________________
       cout 与 wcout 有何不同？图一可见前两行正确显示，后两行显示异常。显示异常当然是因为常量字串处理出了问题。
       再说两组概念：Multibytes 与 Uniocde、Win OS 之 wchar_t 与 ANSI/ISO C/CPP 之 wchar_t。
       第一组、Multibytes 与 Uniocde：
       VC 下，或者说 Win32 中，二者之别等价于变长与定长编码之分，或者说是采用非 UTF-16 还是 UTF-16 之分。自

Win2k 以降，基于 WinNT 内核的 Win OS 已全面更新为 UTF-16 编码。此处 Unicode 仅指 Unicode 字符集配 UTF-16 编码。

其余，包括 UTF-8、UTF-7、GB2312、ANSI/ASCII 等一律划归 Multibytes。故而 Multibytes 应理解为“变长”字符，而非“

多”字符。
       二者转换，WinApi 提供 MultiByteToWideChar 和 WideCharToMultiByte 方法。转换的依据是 CodePage。对此，MSDN

上有细目可查。比如 MS936 码页便是 GB2312 与 Unicode 的映射关系表。
       第二组、Win OS 之 wchar_t 与 ANSI/ISO C/CPP 之 wchar_t：
       ANSI/ISO C/CPP 中 wchar_t 表示长于 8-bit 的数据类型，至于多长，具体依赖实现。《Unicode 标准 4.0》如是说

：
“ANSI/ISO C leaves the semantics of the wide character set to the specific implementation but requires that

the characters from the portable C execution set correspond to their wide character equivalents by zero

extension.”
“The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently, programs that need to

be portable across any C or C++ compiler should not use wchar_t for storing Unicode text. The wchar_t type is

intended for storing compiler-defined wide characters, which may be Unicode characters in some compilers.”
       标准可没说 wchar_t 表示的一定是 Unicode 编码，GB2312 也应可由 wchar_t 表示。只不过Win32 下 wchar_t 锁定

为 UTF-16，而 Unix-like 通常为 UTF-32。对于亚欧主要文明体的文字，UTF-16 已经足够。
       在 VC 下，常量字串 "" 对应 const char* 型，L"" 对应 const wchar_t* 型。前者用来处理各种 Multibytes；而后

者指定处理 UTF-16。对应的 cout 与 wcout、string 与 wstring、iostream 与 wiostream 等亦如此。
1. "没有，就没有新中国！" 字串，按系统环境默认编码处理，此处为 GB2312。
2. L"伟大领袖，万岁、万岁、万万岁！" 宽字串，由于指定了 L，因此该字串将转成 UTF-16 码流传给 wcout。

注意其上一行指定了 chs 环境，也即 MS936 CodePage 映射，因此系统将 UTF-16 码流转为 GB2312 码流输出到控制台缓存（

控制台为 I/O 终端文件）。
3. "Let's Fuck 亚米利加合众国！" 字串，系统将传给 wcout 的系统默认编码流误当成 UTF-16 码去解码为 GB2312，

由于英文字符二者对应，显示正常，而汉字编码不对应，造成汉字显示异常。
4. L"USA Idiot" 宽字串的显示问题则与编码无关，cout 的 << 算符重载不认识 const wchar_t* 型数据，因此将此操

作误当成取址输出，输出的便是该常量字串的地址。
       最后一个问题，工程属性可以设置字符集为 Multibytes 或 Unicode。这是用来切换 Winapi 版本的，是用 Ansi 版本

或 Unicode 版本。
________________________________________
       W 系列流操作对像有何用呢？使用 wcout 比 cout 优势在哪儿呢？见如下例：

图二
       生成一个按倭文编码保存的文件 e:/Fck.txt。然后将那句歌词在控制台上显示出来。已知系统默认环境为 GB2312 编

码。因此通过 w 系列流操作对像，通过 932、936 两页码映射，以 Unicode 流为中介，将 shift_jis 码流转成 gb2312 码流

，在控制台终端正常显示。这活儿，用 cout 办不到。
       那 cout 不就没用了么？可以废掉它了。不！见如下示例：
1. wcout.imbue ( locale ( "chs" ) );
2. wcout << L"打倒美帝国主义！" << endl;
3. // 第四行是另一个程序，与前两行无关，不受第一行约束
4. wcout << "打倒苏修正主义！" << endl;
       第 2 行代码一句输出，首先 L 将字串转码成 UTF-16 流，然后向控制台输出时，还要根据 wcout.imbue 方法指定映

射再转码一次。第 4 行，没有加 L，编译时按系统默认环境编码传给 wcout，但此时，wcout 会误将之用做 UTF-16 码流。尽

管直接输出给控制台，由于未指定映射，码流被原封不动地冲入缓存，由于前后均为系统默认环境编码，因此显示正常；但此

用法是极为危险的，因为其它使用 wcout 对像做转码操作将会失败。
       对于不需要跨文字系统平台的应用来说，使用 wiostream 多此一举，iostream 即可，比如自产自销的本机应用。若考

虑到国际化，则应全部使用 w 系列流操作对像。MSDN 鼓励使用 wiostream。

分享到：

用C语言检测文本编码的方法 (转) | Unicode，Locale

2013-09-02 12:36
浏览 956
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

VC 之 cout 与 wcout 区别及 wchar_t、CharSet、CodePage 等相关概念解析 (转载)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

VC 之 cout 与 wcout 区别及 wchar_t、CharSet、CodePage 等相关概念解析 (转载)

评论

发表评论

相关推荐

编写本地化程序

C标准库的setlocale()用法笔记_转载

gcc只支持utf8

Unicode，Locale

用C语言检测文本编码的方法 (转)

C++字符集问题终极分析(转)

英文系统下unicode ansi utf8

中文系统下开发运行在英文系统下程序需要注意的几个问题(转载)

GetLocaleInfo

setlocale

windows的CP_ACP代码页与CP_OEMCP代码页区别(转载)

最近访客更多访客>>