Libxml2中的中文问题的解决 [转]
时间:2008-12-17
转自:C++的XML编程经验――LIBXML2库使用指南.
http://www.blogjava.net/wxb_nudt/archive/2007/11/18/161340.html
Libxml2中默认的内码是UTF-8,所有使用libxml2进行处理的xml文件,必须首先显式或者默认的转换为UTF-8编码才能被处理。
要在xml中使用中文,就必须能够在UTF-8和GB2312内码(较常用的一种简体中文编码)之间进行转换。Libxml2提供了默认的内码转换机制,并且在libxml2的Tutorial中有一个例子,事实证明这个例子并不适合用来转换中文。
所以需要我们显式的使用ICONV来进行内码转换,libxml2本身也是使用ICONV进行转换的。ICONV是一个专门用来进行编码转换的库,基本上支持目前所有常用的编码。它是glibc库的一个部分,常常被用于UNIX系统中。当然,在windows下面使用也没有任何问题。前面已经提到了ICONV的安装和使用方法,这里主要讲一下编程相关问题。
本节其实和xml以及libxml2没有太大关系,你可以把它简单看作是一个编码转换方面的专题。我们仅仅需要学会使用两个函数就可以了,即从UTF-8转换到GB2312的函数u2g,以及反向转换的函数g2u,源代码在wxb_codeConv.c中:
/********************************************************************
created: 2007/11/15
created: 15:11:2007 10:30
filename: wxb_codeConv.c
author: Wang xuebin
depend: iconv.lib
build: 不需要build,被包含到其它源代码中
purpose: 提供从UTF-8到GB2312的内码转换,以及反向的转换
*********************************************************************/
#include "iconv.h"
#include <string.h>
//代码转换:从一种编码转为另一种编码
int code_convert(char* from_charset, char* to_charset, char* inbuf,
int inlen, char* outbuf, int outlen)
{
iconv_t cd;
char** pin = &inbuf;
char** pout = &outbuf;
cd = iconv_open(to_charset,from_charset);
if(cd == 0)
return -1;
memset(outbuf,0,outlen);
if(iconv(cd,(const char**)pin,(unsigned int *)&inlen,pout,(unsigned int*)&outlen) == -1)
return -1;
iconv_close(cd);
return 0;
}
//UNICODE码转为GB2312码
//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL
char* u2g(char *inbuf)
{
int nOutLen = 2 * strlen(inbuf) - 1;
char* szOut = (char*)malloc(nOutLen);
if (-1 == code_convert("utf-8","gb2312",inbuf,strlen(inbuf),szOut,nOutLen))
{
free(szOut);
szOut = NULL;
}
return szOut;
}
//GB2312码转为UNICODE码
//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL
char* g2u(char *inbuf)
{
int nOutLen = 2 * strlen(inbuf) - 1;
char* szOut = (char*)malloc(nOutLen);
if (-1 == code_convert("gb2312","utf-8",inbuf,strlen(inbuf),szOut,nOutLen))
{
free(szOut);
szOut = NULL;
}
return szOut;
}
使用的时候将这个c文件include到其它源文件中。include一个c文件并不奇怪,在c语言的年代我们常常这么干,唯一的害处的编译链接出来的可执行程序体积变大了。当然这时因为我们这段代码很小的原因,再大一点我就要用dll了。
1. 从UTF-8到GB2312的一个典型使用流程如下:
2. 得到一个UTF-8的字符串szSrc;
3. 定义一个char*的字符指针szDes,并不需要给他动态审判内存;
4. szDes = u2g(szSrc),这样就可以得到转换后的GB2312编码的字符串;
5. 使用完这个字符串后使用free(szDes)来释放内存。
本文并不准备讲述iconv中的函数细节,因为那几个函数以及数据类型都非常简单,我们还是重点看一下如何在libxml2中使用编码转换来处理带有中文的xml文件。下面是使用以上方法来创建一个带有中文的XML文件的例子程序CreateXmlFile_cn.cpp,源代码如下:
/********************************************************************
created: 2007/11/17
created: 9:11:2007 15:34
filename: CreateXmlFile.cpp
author: Wang xuebin
depend: libxml2.lib iconv.lib
build: nmake TARGET_NAME=CreateXmlFile_cn
purpose: 创建一个xml文件,其中包含中文
*********************************************************************/
#include <stdio.h>
#include <libxml/parser.h>
#include <libxml/tree.h>
#include <iostream.h>
#include "wxb_codeConv.c" //自己写的编码转换函数
int main(int argc, char **argv)
{
//定义文档和节点指针
xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");
xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");
//设置根节点
xmlDocSetRootElement(doc,root_node);
//一个中文字符串转换为UTF-8字符串,然后写入
char* szOut = g2u("节点1的内容");
//在根节点中直接创建节点
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");
xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");
xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST szOut);
free(szOut);
//创建一个节点,设置其内容和属性,然后加入根结点
xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");
xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");
xmlAddChild(root_node,node);
xmlAddChild(node,content);
szOut = g2u("属性值");
xmlNewProp(node,BAD_CAST"attribute",BAD_CAST szOut);
free(szOut);
//创建一个中文节点
szOut = g2u("中文节点");
xmlNewChild(root_node, NULL, BAD_CAST szOut,BAD_CAST "content of chinese node");
free(szOut);
//存储xml文档
int nRel = xmlSaveFormatFileEnc("CreatedXml_cn.xml",doc,"GB2312",1);
if (nRel != -1)
{
cout<<"一个xml文档被创建,写入"<<nRel<<"个字节"<<endl;
}
xmlFreeDoc(doc);
return 1;
}
编译链接命令如下:
nmake TARGET_NAME=CreateXmlFile_cn
完成后执行CreateXmlFile_cn.exe可以生成一个xml文件CreatedXml_cn.xml,其内容如下:
<?xml version="1.0" encoding="GB2312"?> <root> <newNode1>newNode1 content</newNode1> <newNode2>newNode2 content</newNode2> <newNode3>newNode3 content</newNode3> <node1>节点1的内容</node1> <node2 attribute="属性值">NODE CONTENT</node2> <中文节点>content of chinese node</中文节点> </root>
观察可知,节点的名称、内容、属性都可以使用中文了。在解析、修改和查找XML文档时都可以使用上面的方法,只要记住,进入xml文档之前将中文编码转换为UTF-8编码;从XML中取出数据时,不管三七二十一都可以转换为GB2312再用,否则你很有可能见到传说中的乱码!
评论:在UTF-8与GB2312转换 过程中 如果需转换字节小于等于2 则会失败。
分享到:
相关推荐
中文手册的提供使得国内开发者更方便地理解和使用这个库,遇到问题时可以快速查找解决方案。如果手册无法打开,可能是由于安全设置问题,可以通过右键点击文件,选择“属性”,然后取消“锁定”状态。 总结来说,...
### C++的XML编程经验——LIBXML2库使用指南 ...通过上述介绍,我们可以看到如何在Windows平台上集成并使用LIBXML2库,以及如何解决常见的中文编码问题。希望这篇指南能够帮助更多开发者高效地利用LIBXML2进行XML编程。
#### 二、Libxml2中的数据类型和函数 LIBXML2库提供了多种数据类型和函数,用于处理XML文档。 1. **内部字符类型`xmlChar`** - `xmlChar`是LIBXML2库内部使用的字符类型。 - 这种类型的使用可以提高跨平台兼容性...
通过结合Libxml2和Iconv,开发者可以在C语言环境中实现完整的XML处理流程,包括读取、修改、创建和保存XML文档,同时解决了中文字符在不同编码间的转换问题。 总的来说,本文旨在提供一个全面的指南,帮助开发者在...
libxml2在处理中文等非英文字符时可能会遇到编码问题。为了解决这些问题,可以结合使用ICONV库进行编码转换。具体做法如下: - 在程序中引入ICONV库的相关头文件。 - 使用iconv_open和iconv函数进行字符集之间的转换...
- 将`AddDefaultCharset ISO-8859-1`中的`ISO-8859-1`改为`GB2312`以解决中文乱码问题。 10. **重启Apache2服务**: - 修改完配置文件后,需重新启动Apache2服务以使更改生效。 11. **设置Apache2文件权限**: - ...
`sudo apt-get install libxml-parser-perl libgnomeui-dev libpanel-applet2-dev gettext intltool` 配置和编译 解压缩源码包后,需要配置和编译飞鸽传书。使用以下命令进行配置: `./configure --prefix=/usr -...
本文主要介绍如何在Linux Enterprise 5环境下安装和配置Nagios监控系统,并重点解决Nagios在默认情况下不支持中文的问题。通过详细的步骤说明,帮助读者顺利搭建一套完整的Nagios监控环境。 #### 二、Nagios简介 ...
在这个项目中,开发者可能遇到了如何处理GBK编码的问题,因为GBK是一种在中国广泛使用的汉字编码标准,对于中文字符的支持比ASCII更为全面。PHP在处理中文字符时,尤其是在读取、存储或者输出时,需要正确地识别和...
在游戏开发和调试过程中,修改这些端口可以实现如加速通讯、优化数据传输等目的,也可能用于解决游戏过程中的延迟问题或者提升安全性。 【标签】"UC 中文版编辑器 UE"中的"UE"可能是指Unicode Editor(通用的...
Cacti是一款开源的网络监控系统,用于图形化展示网络设备的性能数据,如带宽利用率、CPU负载等。...在Cacti的Web界面中,你可以创建图表,设置数据采集频率,以及定义告警阈值,以便及时发现和解决网络问题。
对于有经验的开发者,手册则是一个随时可查的工具书,帮助解决实际开发中遇到的问题。 总之,《PHP5中文手册》是学习和掌握PHP5的宝贵资源,无论是初入编程的新手还是经验丰富的开发者,都能从中受益匪浅。
- **宗旨**: lxml的目标是为用户提供一个简单、高效的工具,以解决XML处理中的常见问题。 - **优势**: 相比其他Python库,lxml在不考虑并发的情况下,拥有更快的爬取速度,这使得它成为许多开发者的首选。 #### 二...
为了克服这个问题,"sphinx-for-chinese"应运而生,它是在Sphinx的基础上添加了对中文的支持,特别是通过集成XDict等中文处理模块,显著提升了中文搜索的效果。 XDict是专门针对中文分词设计的字典库,它包含了大量...
例如,在 Ubuntu 上可以使用 `sudo apt-get install libmysqlclient-dev libprotobuf-dev protobuf-compiler libprotobuf-c-dev libcurl4-openssl-dev libxml2-dev libssl-dev` 来安装必要的依赖。 2. **重新编译 ...
#### 七、安装过程中的常见问题与解决方案 - **权限问题**:确保有足够的权限执行安装命令。 - **依赖缺失**:使用包管理器(如 yum 或 apt-get)安装缺失的依赖。 - **编译错误**:仔细阅读错误信息,通常能从中...
此外,解决中文乱码问题,可以将`AddDefaultCharset`改为`GB2312`。每次修改配置文件后,都需要重启Apache服务使改动生效。 接下来是libxml2库的安装,它是PHP处理XML文档所必需的。解压缩`libxml2-2.6.11.tar.gz`...