`
xusaomaiss
  • 浏览: 615414 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

VC++的Unicode编程

阅读更多

转自:http://www.vckbase.com/document/viewdoc/?id=1733

 

前言:

      因为部门需要一个PC端工具,主要是与wince终端同步数据,要求是可以在各windows操作系统上运行,原来有使用过C#实现的程序,但由于.net框架问题,最后放弃,首先程序比较小,但却需要客户安装.net框架,在不上网的情况下,也就无法下载安装,网龙的91助手现在就存在这个问题,有兴趣的朋友可以在一些系统上跑一下,不装.net框架和Microsoft ActiveSync,可以看一下会报什么提示。同时由于原来的c#使用的是vs 2008开发,.net框架是3.5 一些系统无法安装。所以最后决定由我来写,使用vc实现。本人也经历了从vc6到vc2008的转变。主要原因是vc6编译出来的后来发现也有些问题,可能是编译选项没在设置好还是其它原因,在win7上无法运行。

 

      最后是使用vc2008编译,使用unicode编码。最后一个程序可以在各windows操作系统平稳运行。当然其中包括了win7 64位系统。编译设置中我把所有警告都开启,把编译时的所有警告都解决掉了。

 

正文:

*********************************************************************************

 

一、什么是Unicode

  先从ASCII说起,ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节,因此,ASCII编码可以表示的最大字符数是 255(00H—FFH)。其实,英文字符并没有那么多,一般只用前128个(00H—7FH,最高位为0),其中包括了控制字符、数字、大小写字母和其 它一些符号。而最高位为1的另128个字符(80H—FFH)被称为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其它符号。
  这种字符编码规则显然用来处理英文没有什么问题。但是面对中文、阿拉伯文等复杂的文字,255个字符显然不够用。
于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB2312—80”,它是和ASCII兼容的一种编码规范,其实就是利用扩展ASCII没有真正标准化这一点,把一个中文字符用两个扩展ASCII字符来表示,以区分ASCII码部分。
  但是这个方法有问题,最大的问题就是中文的文字编码和扩展ASCII码有重叠。而很多软件利用扩展ASCII码的英文制表符来画表格,这样的软件用到中文系统中,这些表格就会被误认作中文字符,出现乱码。
  另外,由于各国和各地区都有自己的文字编码规则,它们互相冲突,这给各国和各地区交换信息带来了很大的麻烦。
要真正解决这个问题,不能从扩展ASCII的角度入手,而必须有一个全新的编码系统,这个系统要可以将中文、法文、德文……等等所有的文字统一起来考虑,为每一个文字都分配一个单独的编码。

于是,Unicode诞生了。

  Unicode也是一种字符编码方法,它占用两个字节(0000H—FFFFH),容纳65536个字符,这完全可以容纳全世界所有语言文字的编码。
在Unicode里,所有的字符被一视同仁,汉字不再使用“两个扩展ASCII”,而是使用“1个Unicode”,也就是说,所有的文字都按一个字符来处理,它们都有一个唯一的Unicode码。

二、使用Unicode编码的好处

  使用Unicode编码可以使您的工程同时支持多种语言,使您的工程国际化。
  另外,Windows NT是使用Unicode进行开发的,整个系统都是基于Unicode的。如果调用一个API函数并给它传递一个ANSI(ASCII字符集以及由此派生 并兼容的字符集,如:GB2312,通常称为ANSI字符集)字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操 作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给您的应用程序。进行这些字符串的转 换需要占用系统的时间和内存。如果用Unicode来开发应用程序,就能够使您的应用程序更加有效地运行。

下面例举几个字符的编码以简单演示ANSI和Unicode的区别:

字符  A  N  和
ANSI码  41H  4eH  cdbaH
Unicode码  0041H  004eH  548cH

三、使用C++进行Unicode编程

  对宽字符的支持其实是ANSI C标准的一部分,用以支持多字节表示一个字符。宽字符和Unicode并不完全等同,Unicode只是宽字符的一种编码方式。

1、宽字符的定义

  在ANSI中,一个字符(char)的长度为一个字节(Byte)。使用Unicode时,一个字符占据一个字,C++在wchar.h头文件中定义了最基本的宽字符类型wchar_t:

typedef unsigned short wchar_t;

从这里我们可以清楚地看到,所谓的宽字符就是无符号短整数。

2、常量宽字符串

  对C++程序员而言,构造字符串常量是一项经常性的工作。那么,如何构造宽字符字符串常量呢?很简单,只要在字符串常量前加上一个大写的L就可以了,比如:

wchar_t *str1=L" Hello";

这个L非常重要,只有带上它,编译器才知道你要将字符串存成一个字符一个字。还要注意,在L和字符串之间不能有空格。

3、宽字符串库函数

为了操作宽字符串,C++专门定义了一套函数,比如求宽字符串长度的函数是

size_t __cdel wchlen(const wchar_t*);

  为什么要专门定义这些函数呢?最根本的原因是,ANSI下的字符串都是以’\0’来标识字符串尾的(Unicode字符串以“\0\0”结束),许多 字符串函数的正确操作均是以此为基础进行。而我们知道,在宽字符的情况下,一个字符在内存中要占据一个字的空间,这就会使操作ANSI字符的字符串函数无 法正确操作。以”Hello”字符串为例,在宽字符下,它的五个字符是:
0x0048 0x0065 0x006c 0x006c 0x006f
在内存中,实际的排列是:

48 00 65 00 6c 00 6c 00 6f 00

  于是,ANSI字符串函数,如strlen,在碰到第一个48后的00时,就会认为字符串到尾了,用strlen对宽字符串求长度的结果就永远会是1!

4、用宏实现对ANSI和Unicode通用的编程

  可见,C++有一整套的数据类型和函数实现Unicode编程,也就是说,您完全可以使用C++实现Unicode编程。
如果我们想要我们的程序有两个版本:ANSI版本和Unicode版本。当然,编写两套代码分别实现ANSI版本和Unicode版本完全是行得通的。但 是,针对ANSI字符和Unicode字符维护两套代码是非常麻烦的事情。为了减轻编程的负担,C++定义了一系列的宏,帮助您实现对ANSI和 Unicode的通用编程。
  C++宏实现ANSI和Unicode的通用编程的本质是根据”_UNICODE”(注意,有下划线)定义与否,这些宏展开为ANSI或Unicode字符(字符串)。

如下是tchar.h头文件中部分代码摘抄:

#ifdef  _UNICODE
typedef wchar_t     TCHAR;
#define __T(x)      L##x
#define _T(x)       __T(x)
#else
#define __T(x)      x
typedef char            TCHAR;
#endif 

   可见,这些宏根据”_UNICODE” 定义与否,分别展开为ANSI或Unicode字符。 tchar.h头文件中定义的宏可以分为两类:

A、实现字符和常量字符串定义的宏 我们只列出两个最常用的宏:

未定义_UNICODE(ANSI字符) 定义了_UNICODE(Unicode字符)
TCHAR  char  wchar_t
_T(x)  x  L##x

注意:
  
“##”是ANSI C标准的预处理语法,它叫做“粘贴符号”,表示将前面的L添加到宏参数上。也就是说,如果我们写_T(“Hello”),展开后即为L“Hello”

B、实现字符串函数调用的宏

C++为字符串函数也定义了一系列宏,同样,我们只例举几个常用的宏:

未定义_UNICODE(ANSI字符) 定义了_UNICODE(Unicode字符)
_tcschr  strchr  wcschr
_tcscmp  strcmp  wcscmp
_tcslen  strlen  wcslen

四、使用Win32 API进行Unicode编程

Win32 API中定义了一些自己的字符数据类型。这些数据类型的定义在winnt.h头文件中。例如:

typedef char CHAR; 
typedef unsigned short WCHAR;    // wc,   16-bit UNICODE character 
typedef CONST CHAR *LPCSTR, *PCSTR; 

Win32 API在winnt.h头文件中定义了一些实现字符和常量字符串的宏进行ANSI/Unicode通用编程。同样,只例举几个最常用的:

#ifdef  UNICODE 
typedef WCHAR TCHAR, *PTCHAR;
typedef LPWSTR LPTCH, PTCH;
typedef LPWSTR PTSTR, LPTSTR;
typedef LPCWSTR LPCTSTR;
#define __TEXT(quote) L##quote      // r_winnt
#else   /* UNICODE */               // r_winnt
typedef char TCHAR, *PTCHAR;
typedef LPSTR LPTCH, PTCH;
typedef LPSTR PTSTR, LPTSTR;
typedef LPCSTR LPCTSTR;
#define __TEXT(quote) quote         // r_winnt
#endif /* UNICODE */                // r_winnt

  从以上头文件可以看出,winnt.h根据是否定义了UNICODE(没有下划线),进行条件编译。
   Win32 API也定义了一套字符串函数,它们根据是否定义了“UNICODE”分别展开为ANSI和Unicode字符串函数。如:lstrlen。API的字符 串操作函数和C++的操作函数可以实现相同的功能,所以,如果需要的话,建议您尽可能使用C++的字符串函数,没必要去花太多精力再去学习API的这些东 西。
  也许您从来没有注意到,Win32 API实际上有两个版本。一个版本接受MBCS字符串,另一个接受Unicode字符串。例如:其实根本没有SetWindowText()这个API函 数,相反,有SetWindowTextA()和SetWindowTextW()。后缀A表明这是MBCS函数,后缀W表示这是Unicode版本的函 数。这些API函数的头文件在winuser.h中声明,下面例举winuser.h中的SetWindowText()函数的声明部分:

#ifdef UNICODE
#define SetWindowText  SetWindowTextW
#else
#define SetWindowText  SetWindowTextA
#endif // !UNICODE

   可见,API函数根据定义UNICODE与否决定指向Unicode版本还是MBCS版本。
  细心的读者可能已经注意到了UNICODE和_UNICODE的区别,前者没有下划线,专门用于Windows头文件;后者有一个前缀下划线,专门用 于C运行时头文件。换句话说,也就是在ANSI C++语言里面根据_UNICODE(有下划线)定义与否,各宏分别展开为Unicode或ANSI字符,在Windows里面根据UNICODE(无下 划线)定义与否,各宏分别展开为Unicode或ANSI字符。
  在后面我们将会看到,实际使用中我们不加严格区分,同时定义_UNICODE和UNICODE,以实现UNICODE版本编程。

五、VC++6.0中编写Unicode编码的应用程序

  VC++ 6.0支持Unicode编程,但默认的是ANSI,所以开发人员只需要稍微改变一下编写代码的习惯便可以轻松编写支持UNICODE的应用程序。
  使用VC++ 6.0进行Unicode编程主要做以下几项工作:

1、为工程添加UNICODE和_UNICODE预处理选项。

  具体步骤:打开[工程]->[设置…]对话框,如图1所示,在C/C++标签对话框的“预处理程序定义”中去除_MBCS,加上_UNICODE,UNICODE。(注意中间用逗号隔开)改动后如图2:


图一


图二

  在没有定义UNICODE和_UNICODE时,所有函数和类型都默认使用ANSI的版本;在定义了UNICODE和_UNICODE之后,所有的MFC类和Windows API都变成了宽字节版本了。

2、设置程序入口点

  因为MFC应用程序有针对Unicode专用的程序入口点,我们要设置entry point。否则就会出现连接错误。
  设置entry point的方法是:打开[工程]->[设置…]对话框,在Link页的Output类别的Entry Point里填上wWinMainCRTStartup。


图三

3、使用ANSI/Unicode通用数据类型

  微软提供了一些ANSI和Unicode兼容的通用数据类型,我们最常用的数据类型有_T ,TCHAR,LPTSTR,LPCTSTR。
  顺便说一下,LPCTSTR和const TCHAR*是完全等同的。其中L表示long指针,这是为了兼容Windows 3.1等16位操作系统遗留下来的,在Win32 中以及其它的32位操作系统中,long指针和near指针及far修饰符都是为了兼容的作用,没有实际意义。P(pointer)表示这是一个指 针;C(const)表示是一个常量;T(_T宏)表示兼容ANSI和Unicode,STR(string)表示这个变量是一个字符串。综上可以看 出,LPCTSTR表示一个指向常固定地址的可以根据一些宏定义改变语义的字符串。比如:

TCHAR* szText=_T(“Hello!”);
TCHAR szText[]=_T(“I Love You”);
LPCTSTR lpszText=_T(“大家好!”);

使用函数中的参数最好也要有变化,比如:

MessageBox(_T(“你好”));

  其实,在上面的语句中,即使您不加_T宏,MessageBox函数也会自动把“你好”字符串进行强制转换。但我还是推荐您使用_T宏,以表示您有Unicode编码意识。

4、修改字符串运算问题

  一些字符串操作函数需要获取字符串的字符数(sizeof(szBuffer)/sizeof(TCHAR)),而另一些函数可能需要获取字符串的字节数sizeof(szBuffer)。您应该注意该问题并仔细分析字符串操作函数,以确定能够得到正确的结果。
ANSI操作函数以str开头,如strcpy(),strcat(),strlen();
Unicode操作函数以wcs开头,如wcscpy,wcscpy(),wcslen();
ANSI/Unicode操作函数以_tcs开头 _tcscpy(C运行期库);
ANSI/Unicode操作函数以lstr开头 lstrcpy(Windows函数);
考虑ANSI和Unicode的兼容,我们需要使用以_tcs开头或lstr开头的通用字符串操作函数。

六、举个Unicode编程的例子

第一步:
  打开VC++6.0,新建基于对话框的工程Unicode,主对话框IDD_UNICODE_DIALOG中加入一个按钮控件,双击该控件并添加该控件的响应函数:

void CUnicodeDlg::OnButton1() 
{
	TCHAR* str1=_T("ANSI和UNICODE编码试验");
	m_disp=str1;
	UpdateData(FALSE);
}

   添加静态文本框IDC_DISP,使用ClassWizard给该控件添加CString类型变量m_disp。 使用默认ANSI编码环境编译该工程,生成Unicode.exe。

第二步:
  打开“控制面板”,单击“日期、时间、语言和区域设置”选项,在“日期、时间、语言和区域设置”窗口中继续单击“区域和语言选项”选项,弹出“区域和语言选项”对话框。 在该对话框中,单击“高级”标签,将“非Unicode的程序的语言”选项改为“日语”,单击“应用”按钮,如图四:


图四

弹出的对话框单击“是”,重新启动计算机使设置生效。
运行Unicode.exe程序并单击“Button1”按钮,看,静态文本框出现了乱码。

第三步:
  改为Unicode编码环境编译该工程,生成Unicode.exe。再次运行Unicode.exe程序并单击“Button1”按钮。看到Unicode编码的优势了吧。

分享到:
评论

相关推荐

    VC++ Unicode编程

    VC++ Unicode编程 好东西,介绍了在Unicode下的VC编程,比较实用

    VC++的Unicode编程.doc

    【Unicode编程在VC++中的应用】 Unicode是一种全球通用的字符编码标准,旨在为世界上所有语言的文字提供唯一的编码,从而解决了不同编码系统之间的兼容性问题。它使用16位(两个字节)编码,理论上可以表示65536个...

    VC++的UNICODE编程

    【VC++的UNICODE编程】 Unicode编程在现代软件开发中扮演着至关重要的角色,尤其是在多语言支持和跨平台兼容性方面。本文将深入探讨Unicode的基本概念、使用Unicode编程的优势,以及在VC++环境下如何进行Unicode...

    VC++ UNICODE

    【VC++ UNICODE】是指在...总的来说,掌握VC++中的Unicode编程技术对于开发跨平台、支持多语言的应用程序至关重要,尤其是在与Windows系统深度集成的项目中,Unicode编程可以显著提高程序的可移植性和用户体验。

    VC++下的Unicode编程

    【VC++下的Unicode编程】 在计算机领域,Unicode是一种标准的字符编码方案,旨在为世界上所有语言的每一个字符提供一个唯一的二进制值。相对于ASCII编码,Unicode提供了更广泛的字符覆盖范围,解决了ASCII编码中...

    VC++6.0编程软件

    尽管VC++6.0在历史上占有重要地位,但它已不再支持现代的C++标准(如C++11、C++14、C++17等),也不包含对Unicode和多线程的全面支持,这使得在现代软件开发中,开发者通常会转向更新的Visual Studio版本。...

    Windows VC++系统编程.doc

    VC++支持Unicode编程,程序员可以通过定义UNICODE宏来启用Unicode字符串处理。 3. **窗口和消息**:Windows API中的核心概念之一就是窗口,它是用户与应用程序交互的主要界面。窗口类、窗口实例和消息循环是构建...

    VC++ 编程指南.rar_Vc_chm_vc++_vc++ 编程_visual c++ 编程

    **VC++ 编程指南** 在IT领域,Visual C++(简称VC++)是一种由微软公司开发的强大集成开发环境(IDE),主要用于编写使用C++语言的Windows应用程序。它结合了编译器、调试器和其他工具,为开发者提供了一个高效的...

    VC+++编程指南.rar

    《VC++编程指南》是一本深入探讨Microsoft Visual C++(简称VC++)编程技术的教程。这本书涵盖了从基本概念到高级特性的全方位指导,旨在帮助读者掌握使用VC++进行高效软件开发的技能。通过阅读本书,你可以了解到...

    VC++高级编程教程

    12. **Unicode与多语言支持**:理解Unicode编码和如何在VC++项目中实现对多种语言的支持。 本教程的GIF格式图片将有助于展示代码的逐步执行过程,帮助读者直观地看到每一步的结果,从而加深理解。通过这个教程,...

    CDMA短消息发送程序.zip_VC++ Unicode 串口_cdma at_cdma短信收发_串口_串口 VC

    VC++是微软开发的一种集成开发环境,它支持C++编程语言,并且可以用于创建Windows平台的应用程序。在这个项目中,开发者利用了VC++的MFC(Microsoft Foundation Classes)库,这是一个C++类库,提供了用于构建...

    guitoolkit

    在VC++中进行Unicode编程意味着使用宽字符类型(如`wchar_t`)和宽字符串(如`LPCWSTR`),并且通常需要启用Unicode支持,这样编译器会生成包含Unicode字符的二进制文件。 从压缩包内的文件名可以看出,其中包含两...

    VC++ 编程指南

    **VC++ 编程指南** 在编程领域,Visual C++(简称VC++)是一种由微软公司开发的强大集成开发环境(IDE),主要用于编写使用C++语言的Windows应用程序。它结合了编译器、调试器和其他工具,使得开发者可以高效地创建...

    VC++高级编程

    《VC++高级编程》 在深入探讨VC++高级编程之前,我们先理解一下什么是VC++。Visual C++(简称VC++)是微软公司推出的一种基于Windows操作系统的集成开发环境,它集成了C++编译器、调试器和其他开发工具,为开发者...

    VC下Unicode编程文档.docx

    Unicode编程在VC++环境中是一个重要的主题,特别是在开发多语言支持的应用程序时。Unicode是一种字符编码标准,它使用16位(2字节)的编码空间,能够表示65536个不同的字符,涵盖全球各种语言的字符集,包括中文。与...

    vc++ 6.0 高级编程.rar

    11. **Unicode与多字节字符集**:了解Unicode编码和多字节字符集(MBCS)的区别,以及在VC++ 6.0中如何支持多语言环境。 12. **COM(Component Object Model)**:虽然不是VC++ 6.0特有的,但它是Windows平台上的一...

Global site tag (gtag.js) - Google Analytics