- 浏览: 2042416 次
- 性别:
- 来自: 北京
-
文章分类
- 全部博客 (651)
- ACE (35)
- BAT (9)
- C/C++ (116)
- fast-cgi (14)
- COM (27)
- python (59)
- CGI (4)
- C# (2)
- VC (84)
- DataBase (29)
- Linux (96)
- P2P (6)
- PHP (15)
- Web (6)
- Memcached (7)
- IME输入法 (11)
- 设计模式 (2)
- 搜索引擎 (1)
- 个人情感 (4)
- 笔试/面试 (3)
- 一亩三分地 (33)
- 历史 (2)
- 地理 (1)
- 人物 (3)
- 经济 (0)
- 不仅仅是笑哦 (43)
- 小故事大道理 (2)
- http://www.bjdsmyysjk120.com/ (0)
- http://www.bjdsmyy120.com/ (0)
- 它山之石可以攻玉 (15)
- 大学生你关注些什么 (28)
- 数据恢复 (1)
最新评论
-
luokaichuang:
这个规范里还是没有让我明白当浏览器上传文件时,STDIN的消息 ...
FastCGI规范 -
effort_fan:
好文章!学习了,谢谢分享!
com技术简介 -
vcell:
有错误os.walk(strPath)返回的已经是全部的文件和 ...
通过python获取目录的大小 -
feifeigd:
feifeigd 写道注意:文章中的CPP示例第二行 #inc ...
ATL入门:利用ATL编写简单的COM组件 -
feifeigd:
注意:文章中的CPP示例第二行 #include " ...
ATL入门:利用ATL编写简单的COM组件
UTF-8与GB2312之间的互换 GB2312转换成UTF-8:先把GB2312通过函数MultiByteToWideChar转换成Unicode.然后再把Unicode通过拆开Unicode后拼装成UTF-8。
作者:吴康彬
相信一定有不少的程序开发人员时常会遇到字符编码的问题,而这个问题也是非常让人头痛的。因为这些都是潜在的错误,要找出这些错误也得要有这方面的开发经验才行。特别是在处理xml文档时 ,该问题的出现就更加的频繁了,有一次用java写服务器端程序,用vc写客户端与之交互。交互的协议都是用xml写的。结果在通讯时老是发现数据接受不正确。纳闷!于是用抓取网络数据包工具抓取数据,后来才发现原来是java上xml的头是这样的<?xml version="1.0" encoding="UTF-8"?>,而vc上默认的是GB2312。所以一遇到汉字数据就不正确了。去网上找资料,这方面的文章好象特别少,针对像这样的问题,下面我介绍一下我自己写的一个转换程序。当然,程序很简单。如果有画蛇添足的地方,还望各位高手一笑了之。
如果您对UTF-8、Unicode、GB2312等还是很陌生的话,请查看http://www.linuxforum.net/books/UTF-8-Unicode.html,我这里就不浪费口舌了。下面介绍一下WinAPI的两个函数:WideCharToMultiByte、MultiByteToWideChar。
函数原型:
int WideCharToMultiByte(
UINT CodePage, // code page
DWORD dwFlags, // performance and mapping flags
LPCWSTR lpWideCharStr, // wide-character string
int cchWideChar, // number of chars in string
LPSTR lpMultiByteStr, // buffer for new string
int cbMultiByte, // size of buffer
LPCSTR lpDefaultChar, // default for unmappable chars
LPBOOL lpUsedDefaultChar // set when default char used
); //将宽字符转换成多个窄字符
int MultiByteToWideChar(
UINT CodePage, // code page
DWORD dwFlags, // character-type options
LPCSTR lpMultiByteStr, // string to map
int cbMultiByte, // number of bytes in string
LPWSTR lpWideCharStr, // wide-character buffer
int cchWideChar // size of buffer
);//将多个窄字符转换成宽字符
需要用到的一些函数:
CString CXmlProcess::HexToBin(CString string)//将16进制数转换成2进制
{
if( string == "0") return "0000";
if( string == "1") return "0001";
if( string == "2") return "0010";
if( string == "3") return "0011";
if( string == "4") return "0100";
if( string == "5") return "0101";
if( string == "6") return "0110";
if( string == "7") return "0111";
if( string == "8") return "1000";
if( string == "9") return "1001";
if( string == "a") return "1010";
if( string == "b") return "1011";
if( string == "c") return "1100";
if( string == "d") return "1101";
if( string == "e") return "1110";
if( string == "f") return "1111";
return "";
}
CString CXmlProcess::BinToHex(CString BinString)//将2进制数转换成16进制
{
if( BinString == "0000") return "0";
if( BinString == "0001") return "1";
if( BinString == "0010") return "2";
if( BinString == "0011") return "3";
if( BinString == "0100") return "4";
if( BinString == "0101") return "5";
if( BinString == "0110") return "6";
if( BinString == "0111") return "7";
if( BinString == "1000") return "8";
if( BinString == "1001") return "9";
if( BinString == "1010") return "a";
if( BinString == "1011") return "b";
if( BinString == "1100") return "c";
if( BinString == "1101") return "d";
if( BinString == "1110") return "e";
if( BinString == "1111") return "f";
return "";
}
int CXmlProcess::BinToInt(CString string)//2进制字符数据转换成10进制整型
{
int len =0;
int tempInt = 0;
int strInt = 0;
for(int i =0 ;i < string.GetLength() ;i ++)
{
tempInt = 1;
strInt = (int)string.GetAt(i)-48;
for(int k =0 ;k < 7-i ; k++)
{
tempInt = 2*tempInt;
}
len += tempInt*strInt;
}
return len;
}
UTF-8转换成GB2312先把UTF-8转换成Unicode.然后再把Unicode通过函数WideCharToMultiByte转换成GB2312
WCHAR* CXmlProcess::UTF_8ToUnicode(char *ustart) //把UTF-8转换成Unicode
{
char char_one;
char char_two;
char char_three;
int Hchar;
int Lchar;
char uchar[2];
WCHAR *unicode;
CString string_one;
CString string_two;
CString string_three;
CString combiString;
char_one = *ustart;
char_two = *(ustart+1);
char_three = *(ustart+2);
string_one.Format("%x",char_one);
string_two.Format("%x",char_two);
string_three.Format("%x",char_three);
string_three = string_three.Right(2);
string_two = string_two.Right(2);
string_one = string_one.Right(2);
string_three = HexToBin(string_three.Left(1))+HexToBin(string_three.Right(1));
string_two = HexToBin(string_two.Left(1))+HexToBin(string_two.Right(1));
string_one = HexToBin(string_one.Left(1))+HexToBin(string_one.Right(1));
combiString = string_one +string_two +string_three;
combiString = combiString.Right(20);
combiString.Delete(4,2);
combiString.Delete(10,2);
Hchar = BinToInt(combiString.Left(8));
Lchar = BinToInt(combiString.Right(8));
uchar[1] = (char)Hchar;
uchar[0] = (char)Lchar;
unicode = (WCHAR *)uchar;
return unicode;
}
char * CXmlProcess::UnicodeToGB2312(unsigned short uData) //把Unicode 转换成 GB2312
{
char *buffer ;
buffer = new char[sizeof(WCHAR)];
WideCharToMultiByte(CP_ACP,NULL,&uData,1,buffer,sizeof(WCHAR),NULL,NULL);
return buffer;
}
WCHAR * CXmlProcess::Gb2312ToUnicode(char *gbBuffer) //GB2312 转换成 Unicode
{
WCHAR *uniChar;
uniChar = new WCHAR[1];
::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,uniChar,1);
return uniChar;
}
char * CXmlProcess::UnicodeToUTF_8(WCHAR *UniChar) // Unicode 转换成UTF-8
{
char *buffer;
CString strOne;
CString strTwo;
CString strThree;
CString strFour;
CString strAnd;
buffer = new char[3];
int hInt,lInt;
hInt = (int)((*UniChar)/256);
lInt = (*UniChar)%256;
CString string ;
string.Format("%x",hInt);
strTwo = HexToBin(string.Right(1));
string = string.Left(string.GetLength() - 1);
strOne = HexToBin(string.Right(1));
string.Format("%x",lInt);
strFour = HexToBin(string.Right(1));
string = string.Left(string.GetLength() -1);
strThree = HexToBin(string.Right(1));
strAnd = strOne +strTwo + strThree + strFour;
strAnd.Insert(0,"1110");
strAnd.Insert(8,"10");
strAnd.Insert(16,"10");
strOne = strAnd.Left(8);
strAnd = strAnd.Right(16);
strTwo = strAnd.Left(8);
strThree = strAnd.Right(8);
*buffer = (char)BinToInt(strOne);
buffer[1] = (char)BinToInt(strTwo);
buffer[2] = (char)BinToInt(strThree);
return buffer;
}
例子:将GB2312转换成UTF-8的调用:
char * CXmlProcess::translateCharToUTF_8(char *xmlStream, int len)
{
int newCharLen =0 ;
int oldCharLen = 0;
int revCharLen = len;
char* newCharBuffer;
char* finalCharBuffer;
char *buffer ;
CString string;
buffer = new char[sizeof(WCHAR)];
newCharBuffer = new char[int(1.5*revCharLen)];//设置最大的一个缓冲区
while(oldCharLen < revCharLen)
{
if( *(xmlStream + oldCharLen) >= 0)
{
*(newCharBuffer+newCharLen) = *(xmlStream +oldCharLen);
newCharLen ++;
oldCharLen ++;
}//如果是英文直接复制就可以
else
{
WCHAR *pbuffer = this->Gb2312ToUnicode(xmlStream+oldCharLen);
buffer = this->UnicodeToUTF_8(pbuffer);
*(newCharBuffer+newCharLen) = *buffer;
*(newCharBuffer +newCharLen +1) = *(buffer + 1);
*(newCharBuffer +newCharLen +2) = *(buffer + 2);
newCharLen += 3;
oldCharLen += 2;
}
}
newCharBuffer[newCharLen] = ''\0'';
CString string1 ;
string1.Format("%s",newCharBuffer);
finalCharBuffer = new char[newCharLen+1];
memcpy(finalCharBuffer,newCharBuffer,newCharLen+1);
return finalCharBuffer;
}
程序都非常的简单,由于实在太穷。已经吃了两天的方便面。所以现在头昏,程序的详细说明就不写了。程序员到了像我这样的地步也真是少见。工资低没有办法。哎!!!!
发表评论
-
Berkeley DB 使用经验总结
2012-08-27 14:41 3097作者:陈磊 NoSQL是现在互联网Web2.0时代备受 ... -
嵌入式数据库系统Berkeley DB
2012-08-27 14:37 1543前言 UNIX/LINUX平台下的数据库种类非常多 ... -
C语言中标准输入流、标准输出流、标准错误输出流
2011-06-13 14:32 9309C语言中标准输入流、标准输出流、标准错误输出流 在 ... -
Rsync 实现原理
2011-05-12 20:06 8337Rsync 实现原理 前言 关于rsync的原始文档 ... -
c++简单的虚函数测试
2011-04-27 14:25 1030#include <iostream> u ... -
C++文件行查找
2011-04-26 14:10 1421#include <iostream> # ... -
c++偏特化简单示例
2011-04-13 11:17 2169c++偏特化 // temp1.c ... -
GDB调试精粹及使用实例
2011-03-16 14:06 1150GDB调试精粹及使用实例 一:列文件清单 1. ... -
简单的ini文件解析
2011-02-12 16:36 1632int GetKeyVal(const string s ... -
scanf族函数高级用法
2011-01-25 16:00 2571如何解释 fscanf(fd,&quo ... -
使用scons替代makefile(1)
2011-01-25 11:58 3744早在多年前我刚开始接触linux下的C程序时,经常被makef ... -
使用scons替代makefile(2)
2011-01-25 11:57 3593本篇文章接着上一篇进一步介绍scons的使用方法,主要介绍静态 ... -
使用scons替代makefile(3)
2011-01-25 11:55 4825在上两篇文章中已经简单介绍了用scons编译库文件,可执行程序 ... -
C 支持动态添加测试数据的测试代码
2011-01-13 17:22 1125/下面的定义为了支持可扩增。 //当需要增加一个新的测试用列 ... -
Linux下Makefile的automake生成
2010-12-28 16:55 1112******************helloworld.c* ... -
SCons笔记(详细版)
2010-12-23 16:11 105821. 基本使用 SConstruct文件就功能而言相当于Ma ... -
scons 学习
2010-12-23 11:14 2199scons 学习 作者:Sam(甄峰) sam_code@h ... -
scons随笔
2010-12-22 20:20 4719scons随笔 Scons是新一代的软件构件工具,或者说ma ... -
Scons在linux下的安装和使用
2010-12-21 11:59 3297因为正在用的一个开源软件需要的Developm ... -
排列组合的实现
2010-12-20 12:41 1075简单算法: 从前往后(或者从后往前)每次交换一个位置。当存在 ...
相关推荐
标题中的"UTF-8与GB2312之间的互换类.rar_ UTF-8toGB2312_UTF-8 GB2312_gb2312_mmi_ch"指的是一个能够帮助开发者在UTF-8和GB2312两种编码格式之间进行转换的程序类库。这个压缩包可能包含了源代码文件,使得用户可以...
在深入探讨UTF-8与GB2312之间的互换方法之前,我们首先需要理解这两种编码的基本概念及其特点。 **UTF-8(Unicode Transformation Format - 8 bits):** UTF-8是一种可变长度的字符编码格式,它支持Unicode标准中...
UTF-8、GB2312与UCS码互换的过程,实际上是不同编码标准之间的一种转换。理解这些编码标准的原理和特性,对于确保跨平台、跨国界的文本数据正确无误地传输和显示至关重要。随着全球化进程的加快,字符编码的统一性和...
本工具“编码互换工具 UTF-8_GB2312_BIG5”专注于解决不同编码格式之间的转换问题,主要涉及到UTF-8、GB2312和BIG5这三种编码标准。 1. **UTF-8**:这是一种广泛使用的 Unicode 字符编码方案。UTF-8 的最大特点是...
3. **编码转换工具**:这个名为"gb2312和utf-8文件编码互换工具"的程序,能够帮助用户将文件从GB2312编码转换成UTF-8编码,反之亦然。这对于处理不同编码格式的数据源,或者在不同系统间迁移文件时非常有用。例如,...
在本案例中,我们有一个名为"gb2312和utf-8文件编码互换工具 v1.05-ASP源码.zip"的压缩包,它包含了一款ASP源码,可以实现gb2312与utf-8编码之间的转换。 首先,让我们了解一下gb2312和utf-8编码。GB2312,全称...
这个源码包“ASP源码—gb2312和utf-8文件编码互换源码 v1.05.zip”显然是为了解决在ASP环境中处理不同字符编码——GB2312和UTF-8之间的转换问题。GB2312是中国大陆广泛使用的简体中文字符集,而UTF-8是Unicode的一种...
同样,如果要将UTF-8文件转换为GBK,只需将上述代码中的`'gbk'`和`'utf-8'`位置互换即可。 在实际操作中,需要注意的是,编码转换可能会丢失信息。如果原始文件中含有目标编码不支持的字符,转换后这些字符可能无法...
在这个"基于ASP的gb2312和utf-8文件编码互换源码 v1.05.zip"压缩包中,提供的源码显然专注于解决一个常见的问题:在ASP环境中,如何在GB2312和UTF-8两种不同的字符编码之间进行转换。 GB2312是中国大陆广泛使用的...
这个实例开发源码——“ASP实例开发源码—gb2312和utf-8文件编码互换源码asp版 v1.05.zip”提供了一个功能,即在ASP环境中实现GBK(GB2312)编码与UTF-8编码之间的转换。这种转换对于处理不同编码格式的文本数据,...
在描述中提到的“对《UTF-8与GB2312之间的互换》的进行了改进”,意味着这是一个针对GB2312(中国的一个简体中文编码标准)和UTF-8(一种广泛使用的Unicode编码实现)之间转换的程序或库,进行了优化或修复了一些...
总之,GBK、Unicode和UTF-8在不同的应用场景中有各自的优点,理解和掌握它们之间的转换对于IT开发者来说至关重要。在C/C++环境中,通过编写或利用现有的库函数,可以有效地实现这些编码间的互换。
本文将深入探讨GB、Big5和UTF-8这三种编码体系,并重点讲解如何在VB(Visual Basic)环境下进行它们之间的转换,这对于网页开发和其他编程语言的数据交换至关重要。 首先,我们来了解这三种编码: 1. **GB(GBK)...
UTF-8的最大优点是对ASCII字符集(英文字符)保持向后兼容,因为ASCII字符在UTF-8中只占用一个字节。对于非ASCII字符,UTF-8使用1到4个字节不等,这使得它在处理英文文本时更高效,同时也能支持其他语言。 3. **GB...
压缩包内的文件名称列表提供了更多线索,包括有关UTF-8(一种常见的Unicode实现)的FAQ,VC知识库文章关于UTF-8与GB2312的互换,以及一个可能讨论嵌入式系统中中文Linux问题的文章。还有其他文件,如“LHmima.txt”...
3. U82Ue.vbs和Ue2U8.vbs:这两个脚本涉及到UTF-8编码与Unicode之间的转换。UTF-8是一种变长编码,可以表示Unicode中的所有字符,但不是所有的Unicode字符都使用两字节表示。 4. GB2U8.vbs和U82GB.vbs:它们分别...
本文将深入讲解UTF8和GB2312两种文本编码格式,并介绍如何进行相互转换,以及使用"Convertencoding.exe"这个小工具进行批量操作。 首先,我们要理解什么是文本编码。文本编码是为了在计算机中存储和传输文本字符而...
最常用的编码格式有ASCII、ISO-8859-1、GB2312、GBK以及Unicode的实现UTF-8等。在网页开发中,不正确的编码可能导致乱码问题,因此理解和掌握编码转换至关重要。 在JavaScript中,我们可以使用`decodeURIComponent...
Unicode有多种实现方式,如UTF-8、UTF-16等,其中UTF-8是最常见的,它使用1至4个字节来表示一个字符。 提供的压缩包中包含以下四个文件: 1. **GBK转unicode码表.txt**:这是一个将GBK编码转换为Unicode编码的码表...
UTF-8的优点在于对ASCII字符集的兼容性,使得英文字符只占用一个字节,而大部分中文字符则占用3个字节。 “中文 Big5/GBK/Unicode/UTF8 内码转换器”就是这样一个工具,它能够帮助用户在这些编码之间进行转换。比如...