最近碰到一个项目,需要将申报文件存成XML的格式,编码问题着实让我头疼了一会。现在全部统一成UTF-8编码。具体在各种语言下的操作
这里,我用DOM进行XML解析,应为它简单。
1 客户首先使用VB进行编辑表单,生成一个apply.xml文件。
在VB中,使用MSXML 4.0。如果不设定编码方式,保存的时候,文件默认就是UTF-8编码
Set dom = CreateDOM
Set node = dom.createProcessingInstruction("xml", "version='1.0'")
dom.appendChild node
Set node = Nothing
2 接下来,客户将这个XML通过Web上传到服务器
在PHP中,XMLDOM只支持UTF-8作为默认编码。所以生成的XML文件,上传以后可以直接解析这个文件,获得一些信息
if (!$dom = domxml_open_mem($content)) {
$t->assign('msg', "文件解析错误!");
$t->render('noavailable.html', PAGE_TITLE, 'wrap.html');
exit;
}
接下来,要将这个文件存到数据库里面,因为数据库使用MS Sql Server,它不支持UTF-8的数据结构,所以将整个文件以二进制的方式存到数据库里面,这里让我搞了半天的就是二进制文件的存放方式,如果是mysql,那不需要做任何转换就可以直接存了,但是mssql不行,原因是:
This is because the MSSQL parser makes a clear distinction between binary an character constants. You can therefore not easilly insert binary data with "column = '$data'" syntax like in MySQL and others.
The MSSQL documentation states that binary constants should be represented by their unquoted hexadecimal byte-string. That is.. to set the binary column "col" to contain the bytes 0x12, 0x65 and 0x35 you shold do "col = 0x126535" in you query.
具体操作如下:
//读取上传的文件
$original = $_FILES['content']['name'];
if (!empty($original)) {
if ($_FILES['content']['type'] == "text/xml") {
$filename = $_FILES['content']['tmp_name'];
$handle = fopen($filename, "rb");
$originalcontent = fread($handle, filesize($filename));
fclose($handle);
}
} //end if(!empty($original))
$originalcontent = unpack("H*hex", $originalcontent); //这步是关键
$db->query("insert into ".TBL_SB_ONLINE_USER." (sb_id, user_id, username, sbmc, content, created_date) values ("
.$newid.", "
.$u.", "
.$db->quote(stripslashes($name)).", "
.$db->quote(stripslashes($sbmc)).", 0x"
.$originalcontent['hex'].", " //注意这里,前面有0x
."'$now')");
3 上传之后,用户也可以在网上对这个文件进行在线编辑,这时需要将这个文件从数据库读出,然后还原成UTF-8编码,再进行解析。虽然我们上面使用了unpack,但读出的时候不需要还原。
$sb = $db->getRow('select sbmc, content from '.TBL_SB_ONLINE_USER." where sb_id = $sb_id");
$originalcontent =$sb[content];
if (!$dom = domxml_open_mem($originalcontent)) {
$t->assign('msg', "文件解析错误!");
$t->render('noavailable.html', PAGE_TITLE, 'wrap.html',true);
exit;
}
$context = xpath_new_context($dom);
$xpath = $context->xpath_eval("//material/xm");
$t->assign('xm',iconv("UTF-8","GBK",$xpath->nodeset[0]->get_content()));
读出的时候,mssql除了用于 SQL Server 的 Microsoft OLE DB 提供程序和 SQL Server ODBC 驱动程序自动将 @@TEXTSIZE 设置为最大值 2 GB。其他的都是4096 (4 KB),所以用PHP访问时候,务必将下面打开mssql.textlimit = 2147483647
mssql.textsize = 2147483647
4 后台用VB,要解析该函数需要添加以下代码,用来将byte()转换成utf-8编码
Public Declare Function MultiByteToWideChar Lib "kernel32" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As Long, _
ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long
Public Const CP_UTF8 = 65001
Public Function UTF8_Decode(bUTF8() As Byte) As String
Dim lRet As Long
Dim lLen As Long
Dim lBufferSize As Long
Dim sBuffer As String
Dim bBuffer() As Byte
lLen = UBound(bUTF8) + 1
If lLen = 0 Then Exit Function
lBufferSize = lLen * 2
sBuffer = String$(lBufferSize, Chr(0))
lRet = MultiByteToWideChar(CP_UTF8, 0, VarPtr(bUTF8(0)), lLen, StrPtr(sBuffer), lBufferSize)
If lRet <> 0 Then
sBuffer = Left(sBuffer, lRet)
End If
UTF8_Decode = sBuffer
End Function
具体读数据库的操作是
Dim varcontent() As Byte
varfilesize = mrc.Fields("content").ActualSize
varcontent = mrc.Fields("content").GetChunk(varfilesize)
content = UTF8_Decode(varcontent)
xmlDoc.async = False
xmlDoc.resolveExternals = False
xmlDoc.loadXML (content)
If (xmlDoc.parseError.errorCode <> 0) Then
Dim myErr
Set myErr = xmlDoc.parseError
MsgBox ("发生错误 " & myErr.reason)
Else
xmlDoc.setProperty "SelectionLanguage", "XPath"
5 后台,在Java里面就更好操作了,将读出的数据变成byte[],然后转换成UTF-8的字符串。
当然,事事都有小窍门。关于utf-8的xml存到mssql里面,还有一种歪门邪道,那就是将读入的utf-8的xml (三字节)转换成GBK(2字节),这样双字节的文本保存到mssql的text类型字段里面。从VB读取得时候,msxml能自动识别gbk。从php读取得时候,将GBK再转成utf-8,给domxml解析。哈哈
最后要说的是,PHP的确是一个非常强大的脚本语言,如果开发PHP过程中遇到难以解决,google都不容易搜到的问题,大家直接上php.net的在线文档,文档里面通常有很多好心人将自己的使用心得写在上面,非常有帮助。
分享到:
相关推荐
在IT行业中,XML(eXtensible Markup Language)Web服务是一种关键的技术,它允许不同系统间的无缝通信,不受平台或编程语言...随着技术的不断发展,VB.NET与XML Web服务的结合将继续为分布式系统提供强大的解决方案。
Java局域网通信——飞鸽传书源代码 28个目标文件 内容索引:JAVA源码,媒体网络,飞鸽传书 Java局域网通信——飞鸽传书源代码,大家都知道VB版、VC版还有Delphi版的飞鸽传书软件,但是Java版的确实不多,因此这个Java...
总的来说,这个【短信开发接口包】提供了一套完整的短信发送解决方案,涵盖了多种开发语言和技术,使得开发者能够方便地在自己的应用程序中集成短信服务,无论是Web应用、桌面应用还是移动端应用,都有相应的接口和...
课程设计是IT教育中至关重要的一环,它让学生将理论知识应用于实践中,提升编程技能和问题解决能力。...同时,这些项目也鼓励创新思维,让学生有机会结合个人兴趣和技术趋势来设计和实现独特的解决方案。
6. **论文/任务书**:通常,这类项目会伴随有论文或任务书,其中详细描述了系统的功能需求、设计思路、实现方法以及可能遇到的问题和解决方案。这些文档可以帮助读者更好地理解系统的整体架构和设计原则。 通过这个...
9.1.2 服务器端解决方案的限制 9.1.3 基于Ajax的解决方案 9.2 客户端架构 9.2.1 设计表单 9.2.2 设计客户端/服务器端交互 9.3 服务器端的VB.NET实现. 9.3.1 定义XML响应格式_ 9.3.2 编写服务器端代码 9.4 显示结果 ...
虽然 Visual Studio 2008 也提供了类似的功能,但对于没有 VS2008 的用户来说,SQL Delta 提供了一个很好的解决方案。 - **特点**: 支持多种数据库管理系统、可自定义比较规则、生成 SQL 脚本同步差异等。 #### 9. ...
这为C/S结构下创建共享的办公系统,文档管理,知识管理解决方案提供了更强大的接口。 8 状态栏,智能Web调用,预定义模板套红 全面支持状态栏,用户界面更加友好。智能Web调用让您甚至可使用XML或者自定义的协议与...
简介:SourceFormatX 源代码美化工具是一款专业的 多语言 源码美化工具, 源代码格式化工具, 源代码缩进排版工具 和企业级源代码风格统一化解决方案。其可以按照预设或自定义的源码风格全自动、大批量、精细地美化 C,...
- **简介**: C++Test 主要用于 C 和 C++ 代码的静态分析和动态测试,能够帮助开发者在编码阶段就识别出可能存在的缺陷。 4. **CodeWizard** - **支持语言环境**: C, C++ - **简介**: CodeWizard 是一个专注于 ...