`
逆风的香1314
  • 浏览: 1416212 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

UNICODE 编程入门

阅读更多
 简介

    如果你编写的程序是针对非英语国家的用户,如中国、日本、东欧和中东地区,那么你一定要熟悉 UNICODE 字符集。尤其是用 Visual C++/MFC 编写针对上述国家和地区的用户的程序时,如果你想让自己的应用程序得到更广泛的用户,那么必须考虑代码 UNICODE 的兼容性,也就是说它既在 ASCII 模式下运行 ,也能在UNICODE 模式下运行。本文将介绍 UNICODE 的一些基本编程知识,澄清很多人(包括我自己)在这个问题上存在的模糊认识。对于任何使用 Visual C++ 和/或 MFC 编程的人来说,这篇文章肯定值得一读。

UNICODE到底是什么?

    UNICODE 是目前用来解决 ASCII 码 256 个字符限制问题的一种比较流行的解决方案。大家知道,ASCII 字符集只有256个字符,用 0-255 之间的数字来表示。包括大小写字母、数字以及少数特殊字符;如标点符号、货币符号等。对于大多数拉丁语言来说,这些字符已经够用。但是,许多亚洲和东方语言所用的字符远远不止256个字符。有些超过千个。人们为了突破 ASCII 码字符数的限制,试图用一种简单的方法来针对超过256个字符的语言编写计算机程序。于是 UNICODE 应运而生。UNICODE 通过用双字节来表示一个字符,从而在更大范围内将数字代码映射到多种语言的字符集。

Visual C++的解决方案

    作为软件开发人员,如何熟练有效地使用 UNICODE 呢?如果你正在用 Visual C++ 编写程序,UNICODE 兼容性意味着你的程序是否具有国际化特征,也就是说你的应用程序是针对本地市场还是国际市场。一旦你作出了决定,那么就得在代码中实现具体细节。好在 Visual C++ 提供了很多内建功能来支持 UNICODE,在创建工程时就可以利用 Visual C++ 提供的这些功能。在产生应用程序框架代码之前,AppWizard 允许开发人员决定是否支持 UNICODE。Win32 SDK 包含有一些数据类型遵循 UNICODE 编码规则,MFC 以宏的形式提供了将一般文本转换成 UNICODE 数据类型的途径。开发人员只需要稍微改变一下编写代码的习惯便可以轻松编写支持 UNICODE 的应用。

字符串

    C 程序员一般是用 char 关键字象下面这样来声明一个字符串数组:
       char str[100];       
象下面这样声明函数原形:
       void strcpy( char *out, char *in );        


为了将上面的声明改成支持双字节的 UNICODE 字符集,可以用下面的方法:

       wchar_t str[100];        
或者
       void wcscpy( wchar_t *out, wchar_t *in );        

    此外,微软还提供一种通过预处理指令来实现 UNICODE。每当用 Visual C++ 创建新工程时,只要确定是否支持另外一种字符集,则 AppWizard 将会在头文件中插入预处理指令。这些指令告诉编译器程序想要支持何种字符集。这样在使用VC++提供的通用数据类型时,编译器将用相应的数据类型把通用数据类型替换成所需要支持的字符集。这样很容易将代码重新编译成支持其它字符集的程序。
    为了在 Visual C++ 6.0 中激活 UNICODE 标准,可以这样做:打开工程文件后,从主菜单中选择“Project | Settings”打开工程设置对话框 => 然后选择“C/C++”标签 => 在“Preprocessor definitions”编辑框中添加 UNICODE 或者 _UNICODE 预处理宏指令。如图一所示:


图一 Project Settings 对话框

注意这里的 UNICODE 和 _UNICODE 有什么区别呢?前者没有下划线,专门用于 Windows 头文件;后者有一个前缀下划线,专门用于 C 运行时头文件。
在代码中,凡是用关键字 char  的地方都用 TCHAR 取代;凡是用 char * 的地方都用 LPTSTR 取代;凡是定义在双引号中的字符串常量(如"VCKBASE Online Journal")都用 TEXT 宏重写:

       TEXT("VCKBASE Online Journal");       
TEXT 宏的主要作用是当定义了 UNICODE/_UNICODE 预处理指令时,字符串被标志为双字节字符串,否则字符串被标示为 ANSI 字符串。TEXT 的定义如下:
      TEXT(
           LPTSTR string // ANSI 或者 Unicode 字符串
      );
      参数   string 为字符串指针,指向被解释的 Unicode 或者 ANSI 字符串
在文档中 微软提供了包括通用类型在内的几种数据类型都与 ASCII 和 UNICODE兼容。这一点可以参考微软在线文档有关“通用数据类型和数据类型”的章节。

例子代码

下面通过一些简单的例子来进一步探讨 UNICODE 编程。

使用 ASCII 字符集的“Hello, World”:

//*********************************
// 用 MFC 实现的"Hello World!" 代码
//*********************************

//hello.cpp

#include <afxwin.h>

// Declare the application class
class CHelloApp : public CWinApp
{
public:
   virtual BOOL InitInstance();
};

// Create an instance of the application class
CHelloApp HelloApp;
 
// Declare the main window class
class CHelloWindow : public CFrameWnd
{
   CStatic* cs;
public:
   CHelloWindow();
};

// The InitInstance function is called each
// time the application first executes.
BOOL CHelloApp::InitInstance()
{
   m_pMainWnd = new CHelloWindow();
   m_pMainWnd->ShowWindow(m_nCmdShow);
   m_pMainWnd->UpdateWindow();
   return TRUE;
}

// The constructor for the window class
CHelloWindow::CHelloWindow()
{
   // Create the window itself
   Create(NULL, "Hello World!", WS_OVERLAPPEDWINDOW, 
          CRect(0,0,200,200)); 
	
   // Create a static label
   cs = new CStatic();
   cs->Create("hello world", WS_CHILD|WS_VISIBLE|SS_CENTER, 
              CRect(50,80,150,150), this);
}

修改上面的代码使之支持 UNICODE 字符集,串常量必须要改成对应的 UNICODE 字符。方法是对串常量使用TEXT 宏。这个宏将告诉预处理器检查使用什么样的字符标准:

// The constructor for the window class
CHelloWindow::CHelloWindow()
{
   // Create the window itself
   Create(NULL, TEXT("Hello World!"), WS_OVERLAPPEDWINDOW, 
          CRect(0,0,200,200));
	
   // Create a static label
   cs = new CStatic();
   cs->Create( TEXT("hello world!"), WS_CHILD|WS_VISIBLE|SS_CENTER, 
              CRect(50,80,150,150), this);
}

当预处理器碰到通用数据类型,它便检查 AFXWIN.H 头文件的 _UNICODE 定义。然后根据 UNICODE 定义插入相应的的数据类型。

下面的这个例子使用 Win32 API 函数和通用数据类型设置 C 盘的卷标。

//******************
// 设置 C 盘的卷标
//******************

// drvsvl.cpp

#include <windows.h>
#include <iostream.h>

void main()
{
   BOOL success;
   char volumeName[MAX_PATH];

   cout << "输入新的 C 盘卷标:";
   cin >> volumeName;

   success = SetVolumeLabel("c:\\", volumeName);
   if (success)
      cout << "成功\n";
   else
      cout << "错误代码:" << GetLastError() << endl;
}

通过使用 TCHAR 数据类型,将这段代码最上面的字符数组声明为两个字节的字符。TEXT 宏再次被用于字符串常量:

void main()
{
   BOOL success;
	
   TCHAR volumeName[MAX_PATH];

   cout << TEXT("输入新的 C 盘卷标: ");
   cin >> volumeName;

   success = SetVolumeLabel(TEXT("c:\\" ), volumeName);
   if (success)
      cout << TEXT("成功\n");
   else
      cout << TEXT("错误代码:") << GetLastError() << endl;
} 
Visual C++ 中的通用数据类型

    Visual C++ 提供了几种 MFC 专用的数据类型用于创建具有国际化特性的应用程序。这些定义很通用,完全可以在 UNICODE、ASCII、DBCS (双字节字符集) 和 MBCS (多字节字符集)。由于篇幅所限,本文不打算涉及所有上面提到的这些字符集。有关它们的详细资料请参考相关资料。MFC 提供了一种透明的方式来实现这些字符集。通用数据类型的映射到哪个字符集以及映射方式是根据工程的设置决定的,默认值为 ASCII 模式,其它几个可选项是 MBCS、DBCS 或者 UNICODE。本文主要讨论 UNICODE,所以下表中只列出了 ASCII 与 UNICODE 字符之间的映射关系:

表一:

通用 MFC 数据类型
映射到 ASCII
映射到 UNICODE
注释
_TCHAR
char
wchar_t
_TCHAR 是一个映射宏,当定义 UNICODE 时,该数据类型映射到 wchar_t,如果没有定义 UNICODE,那么它映射到 char。
_T 或 _TEXT
char 常量字符串
wchar_t 常量字符串
功能与宏相同,在 ASCII 模式下,它们被忽略,也就是说被预处理器删除掉,但是如果定义了UNICODE, 则它们会将常量字符串转换成等价的 UNICODE 。
LPTSTR
char*, LPSTR(Win32)
wchar_t*
可移植的32位字符串指针。它将字符类型映射到工程设置的类型。
LPCTSTR
const char*, LPCSTR(Win32)
const wchar_t*
可移植的32位常量字符串指针。它将字符类型常量映射到工程设置的类型。

使用表一中列出的通用数据类型,开发人员可以保证所创建的工程始终是针对一种字符集,这些通用数据类型就相当于占位符,在编译时被特定的字节所替代,使得应用程序在 ASCII 和 UNICODE 模式下都能运行。但是,有一点要特别注意,那就是上述的通用数据类型为微软专有,与 ANSI 标准并不兼容。有关微软提供的这些通用数据类型详细描述请参考 MSDN 库文档。

有关技术注释

    为了成功编译支持 UNICODE 的 MFC 程序,必须使用 MFC 的 UNICODE 版本库。该库在定制安装Visual C++ 时是个可选安装项。
    有一点很重要:那就是不使用 UNICODE 标准在外观上并不影响程序的执行。也就是说,上面提到过的代码不管设没设置 _UNICODE 生成选项,最终都能生成正常运行的程序。当开发人员使用多个版本的Win32 API函数时才会出现问题。
    在使用多个版本的 Win32 API函数(任何有字符或字符串作为参数的 Win32 API函数)时,编译器根据是否设置 _UNICODE 指令来决定调用正确的函数。如果没有定义_UNICODE,那么编译器将默认调用 ASCII 版本函数。

结束语

    综上所述可以看到,编译 UNICODE 版本的程序并不难。只是在编写代码时记住函数调用上些微的变化。微软为此提供的扩展是开发人员能够以透明的方式选择所用的字符集,为应用软件的国际化打开了方便之门。
    Jeffrey Richter 在他的《Windows 核心编程》(机械工业出版社-王建华、张焕生、侯丽坤等译)一书中专门用一章讨论了 UNICODE。翻译得也不错。有兴趣的朋友不妨找来看看。


<script type="text/javascript"><!----></script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"> </script> <script> window.google_render_ad(); </script> <iframe name="google_ads_frame" scrolling="no" marginheight="0" allowtransparency="" marginwidth="0" src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-4159669282587342&amp;amp;dt=1223619246611&amp;amp;lmt=1223619245&amp;amp;alt_color=FFFFFF&amp;amp;format=468x60_as&amp;amp;output=html&amp;amp;correlator=1223619245609&amp;amp;url=http%3A%2F%2Fwww.vckbase.com%2Fdocument%2Fviewdoc%2F%3Fid%3D642&amp;amp;color_bg=ECF8FF&amp;amp;color_text=6F6F6F&amp;amp;color_link=0000CC&amp;amp;color_url=008000&amp;amp;color_border=B4D0DC&amp;amp;ad_type=text_image&amp;amp;ea=off&amp;amp;frm=0&amp;amp;cc=11&amp;amp;ga_vid=331801136.1223619247&amp;amp;ga_sid=1223619247&amp;amp;ga_hid=1247554040&amp;amp;flash=9.0.124.0&amp;amp;u_h=768&amp;amp;u_w=1024&amp;amp;u_ah=738&amp;amp;u_aw=1024&amp;amp;u_cd=32&amp;amp;u_tz=480&amp;amp;u_java=true" frameborder="0" height="60" width="468"></iframe>

最新评论 [发表评论] [文章投稿] 查看所有评论 推荐给好友 打印

写的好,谢谢!!! ( liangquan 发表于 2008-9-11 15:50:00)
 
在很多资料上看到BYTE数据类型的使用,而我却一点也不了解,楼主能不能帮忙解释一下。
可以发到我邮箱:kyozpeng@126.com ( kyos 发表于 2006-7-4 17:01:00)
 
1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?
  可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。
  调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。

引用于:http://fornothing.blogdriver.com/fornothing/

所以:光标的位置是strlen函数的反回值除以2 ( bluebaby9811 发表于 2006-5-22 10:51:00)
 
可以用API MultiByteToWideChar WideCharToMultiByte 试试 ( eaglehxp 发表于 2004-12-8 9:45:00)
 
现在输入汉字只显示一半,就是光标根据lstrlen()才移动一格,怎么办啊,急啊~!~!~!有没有什么根本的解决办法啊 ( hennise 发表于 2004-8-3 12:55:00)
 
请问高手,我上述问题都解决了,但我用lstrlen()来判断长度来定位光标时,出现问题,就是一个汉字是一个unicode 字符,但要占两个光标的位置,怎样解决这个问题啊,我把文档所有的操作都重载了一遍,但不知道windows默认对unicode的操作是怎样的,跪请高手赐教!! ( hennise 发表于 2004-8-3 12:54:00)
 
请问高手,我上述问题都解决了,但我用lstrlen()来判断长度来定位光标时,出现问题,就是一个汉字是一个unicode 字符,但要占两个光标的位置,怎样解决这个问题啊,我把文档所有的操作都重载了一遍,但不知道windows默认对unicode的操作是怎样的,跪请高手赐教!! ( hennise 发表于 2004-8-3 12:54:00)
 
星星说的对!!
光加上_UNICODE 哪行呀!这不是胡扯嘛!!
呵呵!! ( ll_syl 发表于 2004-7-23 14:11:00)
 

支持哦 ( dahan2005 发表于 2004-5-27 17:44:00)
 
如何在调试的时候看到字符串的值
( lh2078 发表于 2004-3-30 16:47:00)
 
.......................................................
More...
分享到:
评论

相关推荐

    Python快速编程入门的课后习题答案(本人原创,通过测试完整准确)

    "Python快速编程入门的课后习题答案" Python 是一种高级的、解释性的编程语言,具有简单易学、开源、高级语言、可移植性、解释性、面向对象、可扩展性、丰富的库、规范的代码等特点。 Python 可以应用在 web 应用...

    win32编程入门程序

    win32编程入门程序 包括:自定义消息 定时器 使用资源(图标,光标,菜单,对话框) 键盘消息响应 后备缓冲区 说明:需自建工作空间,并在建好之后在属性-&gt;配置属性-&gt;常规-&gt;项目默认值-&gt;字符集 选择"使用Unicode...

    com编程入门(值得收藏)

    COM编程入门是一个面向初学者的主题,旨在帮助程序员理解并开始使用Component Object Model(COM)这一核心技术。COM是微软开发的一种二进制接口标准,它允许不同应用程序之间共享和交互对象,不受特定编程语言的...

    Windows编程入门——字节跳动.pptx

    Windows 编程入门 Windows 编程入门是指使用微软的 Windows 操作系统进行软件开发的入门指南。本指南涵盖了 Windows 编程的基本理论、开发工具和框架、 Demo 实战等方面的知识点。 Windows 操作系统 Windows 操作...

    COM编程入门篇.doc

    9. **字符串处理**:COM使用BSTR类型处理字符串,这是一种Unicode字符串格式,便于跨语言和组件的通信。 学习COM编程,你需要理解这些基本概念,并学会如何创建、使用和销毁COM对象,以及如何处理接口和IUnknown。...

    API编程入门指导.pdf

    ### API编程入门:掌握Windows数据类型与宏定义 在IT行业,尤其是软件开发领域,**API(Application Programming Interface)编程**是一项核心技能。API作为不同软件组件之间通信的桥梁,其重要性不言而喻。本文...

    Windows编程入门知道书

    【Windows编程入门知道书】 Windows编程对于初学者来说可能显得有些复杂,但通过这本指导书,你可以逐步熟悉这个领域。首先,你需要了解操作系统的基本概念,尤其是Windows操作系统的核心组成部分。操作系统(OS)...

    c语言编程入门.docx

    C语言编程入门是计算机科学的基础,它是一种强大的、低级别的编程语言,被广泛用于系统开发、嵌入式系统以及各种应用程序。C语言以其简洁、高效和可移植性著称,是许多现代编程语言的基石。 在C语言编程中,了解...

    Windows编程入门—.zip

    这个名为“Windows编程入门”的压缩包资源可能是一个引导初学者踏入Windows API和应用程序开发的教程。它包含了一个名为"Windows编程入门——字节跳动.pptx"的PPT文件,很可能是由字节跳动公司提供的一个教学材料,...

    COM编程入门资料COM入门资料

    处理COM中的字符串,通常涉及到BSTR类型,这是COM中定义的一种Unicode字符串类型,需要特殊处理。例如,创建和释放BSTR字符串应使用`SysAllocString`和`SysFreeString`函数。 错误处理主要通过`HRESULT`类型进行。`...

    0 c语言编程入门

    C语言编程入门是学习计算机科学的基础,它是一种高级程序设计语言,被广泛应用于系统开发、软件工程、嵌入式系统等多个领域。C语言简洁、高效,允许直接操作内存,因此理解计算机内存的工作原理对掌握C语言至关重要...

    windows+SDK编程入门介绍共49页.pdf.zip

    本资料"windows+SDK编程入门介绍共49页.pdf.zip"显然是一个关于Windows SDK编程初学者的教程,旨在帮助开发者快速理解和掌握Windows SDK的基本用法和核心概念。 在Windows SDK编程中,以下几个关键知识点是入门阶段...

    c语言编程入门.pdf

    C语言编程入门是学习计算机编程的基础,它涉及到内存管理、数据表示、运算规则以及编码标准等核心概念。在C语言中,对内存的理解至关重要,因为它是程序运行的基础。内存条由大量的电子元器件组成,每个元器件能处于...

    VC++_Win32 编程入门

    标题《VC++_Win32 编程入门》指出了文章的主题是介绍使用C++语言进行Windows编程的初学者入门指南,且仅覆盖Win32 API编程部分,不涉及MFC(Microsoft Foundation Classes)框架。Win32 API是Windows操作系统提供的...

    COM编程入门篇

    COM编程入门 COM,全称为Component Object Model,是一种组件对象模型,是微软提出的一种跨应用程序和编程语言的二进制代码共享机制。COM的核心思想是促进代码的重用,避免源码级别的重用带来的局限性,如C++中的...

    易语言读Unicode模块

    易语言是一种基于中文的编程语言,它以简明的语法和直观的编程界面为特点,旨在降低编程入门难度。在处理字符编码时,易语言原生支持的是ANSI编码,对于Unicode这种更广泛的字符集支持相对有限。"易语言读Unicode...

    Windows驱动编程入门.pdf

    Windows驱动编程是操作系统内部机制的重要组成部分,主要用于与硬件设备交互,提供系统级别的服务。对于新手来说,这是一门复杂而重要的技术,因为它涉及到系统底层的工作原理。本文将介绍Windows驱动编程的一些基础...

Global site tag (gtag.js) - Google Analytics