`

Libxml2中的中文问题的解决 [转]

    博客分类:
  • XML
阅读更多

Libxml2中的中文问题的解决 [转]

 时间:2008-12-17

转自:C++XML编程经验――LIBXML2库使用指南.

http://www.blogjava.net/wxb_nudt/archive/2007/11/18/161340.html

 

Libxml2中默认的内码是UTF-8,所有使用libxml2进行处理的xml文件,必须首先显式或者默认的转换为UTF-8编码才能被处理。

要在xml中使用中文,就必须能够在UTF-8GB2312内码(较常用的一种简体中文编码)之间进行转换。Libxml2提供了默认的内码转换机制,并且在libxml2Tutorial中有一个例子,事实证明这个例子并不适合用来转换中文。

所以需要我们显式的使用ICONV来进行内码转换,libxml2本身也是使用ICONV进行转换的。ICONV是一个专门用来进行编码转换的库,基本上支持目前所有常用的编码。它是glibc库的一个部分,常常被用于UNIX系统中。当然,在windows下面使用也没有任何问题。前面已经提到了ICONV的安装和使用方法,这里主要讲一下编程相关问题。

本节其实和xml以及libxml2没有太大关系,你可以把它简单看作是一个编码转换方面的专题。我们仅仅需要学会使用两个函数就可以了,即从UTF-8转换到GB2312的函数u2g,以及反向转换的函数g2u,源代码在wxb_codeConv.c中:

/********************************************************************

    created:   2007/11/15

    created:   15:11:2007   10:30

    filename: wxb_codeConv.c

    author:       Wang xuebin

    depend:       iconv.lib

    build:     不需要build,被包含到其它源代码中

    purpose:   提供从UTF-8GB2312的内码转换,以及反向的转换

*********************************************************************/

 

#include "iconv.h"

#include <string.h>

//代码转换:从一种编码转为另一种编码  

int code_convert(char* from_charset, char* to_charset, char* inbuf,

               int inlen, char* outbuf, int outlen)

{

    iconv_t cd;

    char** pin = &inbuf;  

    char** pout = &outbuf;

    cd = iconv_open(to_charset,from_charset);  

    if(cd == 0)

       return -1;

 

    memset(outbuf,0,outlen);  

 

    if(iconv(cd,(const char**)pin,(unsigned int *)&inlen,pout,(unsigned int*)&outlen) == -1)

       return -1;  

 

    iconv_close(cd);

 

    return 0;  

}

 

//UNICODE码转为GB2312  

 

//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL

 

char* u2g(char *inbuf)  

{

    int nOutLen = 2 * strlen(inbuf) - 1;

    char* szOut = (char*)malloc(nOutLen);

    if (-1 == code_convert("utf-8","gb2312",inbuf,strlen(inbuf),szOut,nOutLen))

    {

       free(szOut);

       szOut = NULL;

    }

 

    return szOut;

}  

 

//GB2312码转为UNICODE  

 

//成功则返回一个动态分配的char*变量,需要在使用完毕后手动free,失败返回NULL

 

char* g2u(char *inbuf)  

 

{

    int nOutLen = 2 * strlen(inbuf) - 1;

    char* szOut = (char*)malloc(nOutLen);

    if (-1 == code_convert("gb2312","utf-8",inbuf,strlen(inbuf),szOut,nOutLen))

    {

       free(szOut);

       szOut = NULL;

    }

 

    return szOut;

}  

 

使用的时候将这个c文件include到其它源文件中。include一个c文件并不奇怪,在c语言的年代我们常常这么干,唯一的害处的编译链接出来的可执行程序体积变大了。当然这时因为我们这段代码很小的原因,再大一点我就要用dll了。

1.        UTF-8GB2312的一个典型使用流程如下:

2.        得到一个UTF-8的字符串szSrc

3.        定义一个char*的字符指针szDes,并不需要给他动态审判内存;

4.        szDes = u2g(szSrc),这样就可以得到转换后的GB2312编码的字符串;

5.        使用完这个字符串后使用free(szDes)来释放内存。

本文并不准备讲述iconv中的函数细节,因为那几个函数以及数据类型都非常简单,我们还是重点看一下如何在libxml2中使用编码转换来处理带有中文的xml文件。下面是使用以上方法来创建一个带有中文的XML文件的例子程序CreateXmlFile_cn.cpp,源代码如下:

 

/********************************************************************

 

    created:   2007/11/17

    created:   9:11:2007   15:34

    filename: CreateXmlFile.cpp

    author:       Wang xuebin

    depend:       libxml2.lib iconv.lib

    build:     nmake TARGET_NAME=CreateXmlFile_cn

    purpose:   创建一个xml文件,其中包含中文

*********************************************************************/

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

 

#include <iostream.h>

 

#include "wxb_codeConv.c" //自己写的编码转换函数

 

int main(int argc, char **argv)

{

    //定义文档和节点指针

    xmlDocPtr doc = xmlNewDoc(BAD_CAST"1.0");

    xmlNodePtr root_node = xmlNewNode(NULL,BAD_CAST"root");

 

    //设置根节点

    xmlDocSetRootElement(doc,root_node);

 

    //一个中文字符串转换为UTF-8字符串,然后写入

    char* szOut = g2u("节点1的内容");

 

    //在根节点中直接创建节点

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode1", BAD_CAST "newNode1 content");

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode2", BAD_CAST "newNode2 content");

 

    xmlNewTextChild(root_node, NULL, BAD_CAST "newNode3", BAD_CAST "newNode3 content");

 

    xmlNewChild(root_node, NULL, BAD_CAST "node1",BAD_CAST szOut);

 

    free(szOut);

 

    //创建一个节点,设置其内容和属性,然后加入根结点

 

    xmlNodePtr node = xmlNewNode(NULL,BAD_CAST"node2");

 

    xmlNodePtr content = xmlNewText(BAD_CAST"NODE CONTENT");

    xmlAddChild(root_node,node);

    xmlAddChild(node,content);

 

    szOut = g2u("属性值");

 

    xmlNewProp(node,BAD_CAST"attribute",BAD_CAST szOut);

 

    free(szOut);

 

    //创建一个中文节点

 

    szOut = g2u("中文节点");

 

    xmlNewChild(root_node, NULL, BAD_CAST szOut,BAD_CAST "content of chinese node");

 

    free(szOut);

 

    //存储xml文档

    int nRel = xmlSaveFormatFileEnc("CreatedXml_cn.xml",doc,"GB2312",1);

 

    if (nRel != -1)

    {

       cout<<"一个xml文档被创建,写入"<<nRel<<"个字节"<<endl;

    }

 

    xmlFreeDoc(doc);

 

    return 1;

}

 

编译链接命令如下:

 

nmake TARGET_NAME=CreateXmlFile_cn

 

完成后执行CreateXmlFile_cn.exe可以生成一个xml文件CreatedXml_cn.xml,其内容如下:

 

<?xml version="1.0" encoding="GB2312"?> <root> <newNode1>newNode1 content</newNode1> <newNode2>newNode2 content</newNode2> <newNode3>newNode3 content</newNode3> <node1>节点1的内容</node1> <node2 attribute="属性值">NODE CONTENT</node2> <中文节点>content of chinese node</中文节点> </root>


  

 

 

 

观察可知,节点的名称、内容、属性都可以使用中文了。在解析、修改和查找XML文档时都可以使用上面的方法,只要记住,进入xml文档之前将中文编码转换为UTF-8编码;从XML中取出数据时,不管三七二十一都可以转换为GB2312再用,否则你很有可能见到传说中的乱码!

评论:在UTF-8与GB2312转换 过程中 如果需转换字节小于等于2 则会失败。

分享到:
评论

相关推荐

    libxml2安装包及中文手册

    中文手册的提供使得国内开发者更方便地理解和使用这个库,遇到问题时可以快速查找解决方案。如果手册无法打开,可能是由于安全设置问题,可以通过右键点击文件,选择“属性”,然后取消“锁定”状态。 总结来说,...

    C++的XML编程经验――LIBXML2库使用指南

    ### C++的XML编程经验——LIBXML2库使用指南 ...通过上述介绍,我们可以看到如何在Windows平台上集成并使用LIBXML2库,以及如何解决常见的中文编码问题。希望这篇指南能够帮助更多开发者高效地利用LIBXML2进行XML编程。

    LIBXML2库windows使用指南

    #### 二、Libxml2中的数据类型和函数 LIBXML2库提供了多种数据类型和函数,用于处理XML文档。 1. **内部字符类型`xmlChar`** - `xmlChar`是LIBXML2库内部使用的字符类型。 - 这种类型的使用可以提高跨平台兼容性...

    个人总结C语言下xml使用全集-libxml.docx

    通过结合Libxml2和Iconv,开发者可以在C语言环境中实现完整的XML处理流程,包括读取、修改、创建和保存XML文档,同时解决了中文字符在不同编码间的转换问题。 总的来说,本文旨在提供一个全面的指南,帮助开发者在...

    c 解析xml文件库

    libxml2在处理中文等非英文字符时可能会遇到编码问题。为了解决这些问题,可以结合使用ICONV库进行编码转换。具体做法如下: - 在程序中引入ICONV库的相关头文件。 - 使用iconv_open和iconv函数进行字符集之间的转换...

    Linux下PHP环境搭建

    - 将`AddDefaultCharset ISO-8859-1`中的`ISO-8859-1`改为`GB2312`以解决中文乱码问题。 10. **重启Apache2服务**: - 修改完配置文件后,需重新启动Apache2服务以使更改生效。 11. **设置Apache2文件权限**: - ...

    ubuntu下飞鸽传书的安装

    `sudo apt-get install libxml-parser-perl libgnomeui-dev libpanel-applet2-dev gettext intltool` 配置和编译 解压缩源码包后,需要配置和编译飞鸽传书。使用以下命令进行配置: `./configure --prefix=/usr -...

    nagios安装

    本文主要介绍如何在Linux Enterprise 5环境下安装和配置Nagios监控系统,并重点解决Nagios在默认情况下不支持中文的问题。通过详细的步骤说明,帮助读者顺利搭建一套完整的Nagios监控环境。 #### 二、Nagios简介 ...

    PHP实例开发源码—PhpColor php多彩贴吧GBK.zip

    在这个项目中,开发者可能遇到了如何处理GBK编码的问题,因为GBK是一种在中国广泛使用的汉字编码标准,对于中文字符的支持比ASCII更为全面。PHP在处理中文字符时,尤其是在读取、存储或者输出时,需要正确地识别和...

    UC中文版编辑器(魔域修改ACC -MSG )

    在游戏开发和调试过程中,修改这些端口可以实现如加速通讯、优化数据传输等目的,也可能用于解决游戏过程中的延迟问题或者提升安全性。 【标签】"UC 中文版编辑器 UE"中的"UE"可能是指Unicode Editor(通用的...

    cacti中文版安装步骤

    Cacti是一款开源的网络监控系统,用于图形化展示网络设备的性能数据,如带宽利用率、CPU负载等。...在Cacti的Web界面中,你可以创建图表,设置数据采集频率,以及定义告警阈值,以便及时发现和解决网络问题。

    PHP5中文手册(chm格式)

    对于有经验的开发者,手册则是一个随时可查的工具书,帮助解决实际开发中遇到的问题。 总之,《PHP5中文手册》是学习和掌握PHP5的宝贵资源,无论是初入编程的新手还是经验丰富的开发者,都能从中受益匪浅。

    lxml学习手册

    - **宗旨**: lxml的目标是为用户提供一个简单、高效的工具,以解决XML处理中的常见问题。 - **优势**: 相比其他Python库,lxml在不考虑并发的情况下,拥有更快的爬取速度,这使得它成为许多开发者的首选。 #### 二...

    sphinx+xdict+安装说明.zip

    为了克服这个问题,"sphinx-for-chinese"应运而生,它是在Sphinx的基础上添加了对中文的支持,特别是通过集成XDict等中文处理模块,显著提升了中文搜索的效果。 XDict是专门针对中文分词设计的字典库,它包含了大量...

    sphinx扩展,适用linux

    例如,在 Ubuntu 上可以使用 `sudo apt-get install libmysqlclient-dev libprotobuf-dev protobuf-compiler libprotobuf-c-dev libcurl4-openssl-dev libxml2-dev libssl-dev` 来安装必要的依赖。 2. **重新编译 ...

    共享安装 cacti 过程中的一些经历 cacti 中文-linux - sun solaris

    #### 七、安装过程中的常见问题与解决方案 - **权限问题**:确保有足够的权限执行安装命令。 - **依赖缺失**:使用包管理器(如 yum 或 apt-get)安装缺失的依赖。 - **编译错误**:仔细阅读错误信息,通常能从中...

    Linux下环境安装配置.pdf

    此外,解决中文乱码问题,可以将`AddDefaultCharset`改为`GB2312`。每次修改配置文件后,都需要重启Apache服务使改动生效。 接下来是libxml2库的安装,它是PHP处理XML文档所必需的。解压缩`libxml2-2.6.11.tar.gz`...

Global site tag (gtag.js) - Google Analytics