使用Dxpcom进行HTML文本的DOM解析

h_rain

浏览: 121988 次
性别:
来自: 哈尔滨

最近访客更多访客>>

Jobin2612

wangfeijiao

gudujinxiao

kisslongge

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (10)

社区版块

存档分类

HTML XML DXPCOM D语言

    开帖纪念,dxpcom终于可以使用了.
    找了好半天,才知道怎么使用mozilla xpcom进行HTML的DOM解析.
    解析使用的组件是"@mozilla.org/xmlextras/domparser;1",可以解析HTML和XML.解析使用的接口是nsIDOMParser.
    代码如下,保存时要注意为UTF-8格式,不然无法用DMD编译.

import mozilla.xpcom.nsXPCOM;
import mozilla.xpcom.nsIDOMParser;
import mozilla.xpcom.nsIComponentManager;
import mozilla.xpcom.nsIDOMDocument;
import mozilla.xpcom.nsIDOMHTMLDocument;
import mozilla.xpcom.nsISupports;
import mozilla.dxpcom.StringAPI;
import mozilla.dxpcom.QueryInterface;
import std.string;
import std.stdio;

void main(char[][] args)
{
    //定义xpcom组件管理器接口
	nsIComponentManager componentManager;
	nsresult result;
    //定义一个临时使用的空串
    AString tStr=new AString();

	//初始化xpcom环境
	result = NS_InitXPCOM2(null, null, null);
	assert(result==0);

	//得到xpcom组件管理端接口
	result = NS_GetComponentManager(&componentManager);
    assert(result==0);

    //定义DOM解析器接口
	nsIDOMParser DOMParser;

	//使用xpcom组件管理端,从指定的组件中得到指定的接口
	result = componentManager.CreateInstanceByContractID("@mozilla.org/xmlextras/domparser;1",null,
		&nsIDOMParser.IID,cast(void**)&DOMParser);
    assert(result==0);

    //定义待解析的HTML文本串
	PRUnichar HtmlStr[]=r"<html><head><title>test_title</title></head><body><al>test</al></body></html>"w;

    //定义DOM文档对象接口
	nsIDOMDocument DOMDoc;

    //使用DOM解析接口解析html文本串,得到DOM文档对象接口
    result=DOMParser.ParseFromString(cast(PRUnichar*)HtmlStr,"application/xhtml+xml",&DOMDoc);
    assert(result==0);
    DOMParser.Release();

    /*
    //得到文档的类型
    nsIDOMDocumentType DocType;
    result=DOMDoc.GetName(&DocType);
    assert(result==0);
    result=DocType.GetInternalSubset(cast(nsAString*)tStr);
    assert(result==0);
    writefln("Doc Type=: %s", tStr.GetString());*/

    //定义DOM节点列表接口
    nsIDOMNodeList NodeList;

    //定义待解析得到的节点的名字
    AString TagName = new AString("title"w);
    //解析得到节点列表
    result=DOMDoc.GetElementsByTagName(cast(nsAString*)TagName,&NodeList);
    assert(result==0);

    //定义DOM节点接口
    nsIDOMNode Node;
    uint Len=0;

    //判断节点列表是否为空
    result=NodeList.GetLength(&Len);
    assert(result==0&&Len!=0);

    //从节点列表中得到一个节点
    result=NodeList.Item(0,&Node);
    assert(result==0);
    NodeList.Release();

    //得到这个节点的名字
    result=Node.GetNodeName(cast(nsAString*)tStr);
    assert(result==0);

    //显示这个节点的名字
    wchar wStr[]=tStr.GetString();
    Len=wStr.length;
	writefln("Node Name =: %s", wStr);

    //再定义一个节点接口,用于表示子节点
    nsIDOMNode cNode;

    //得到这个节点的子节点
    result=Node.GetFirstChild(&cNode);
    assert(result==0);


    //得到子节点的值
    result=cNode.GetNodeValue(cast(nsAString*)tStr);
    assert(result==0);
    cNode.Release();

    //显示这个子节点的值
    wStr=tStr.GetString();
    writefln("Node Value=: %s", wStr);

    //释放所有用过的接口
    Node.Release();
    DOMDoc.Release();
    componentManager.Release();
    //关闭xpcom环境
	result = NS_ShutdownXPCOM(null);
	assert(result==0);
}

看上去好像很繁琐,但等D的异常风格包装完事后,会好看的多!

再次对qiezi的工作表示敬意!为我们提供了在D中使用xpcom的可能!
:)

其他不明的相关事宜,请大家讨论.

这次修改,加入了Release调用.

最终的运行结果是:

Node Name =: title
Node Value=: test_title

分享到：

关于一些中文分词器 | 深入分析D语言接口与COM接口的关系

2007-04-26 17:11
浏览 13991
评论(31)
分类:编程语言
查看更多

11 楼 qiezi 2007-04-27

现在异常封装在调用的时候就是这样的：

void InitWithPath(wchar[] path)
{
    scope auto _path = new AString(path);
    nsresult result = inner.InitWithPath(cast(nsAString*)_path);
    CheckException(result);  // 如果不是NS_OK则抛出异常
}

这是一个异常风格＋D风格包装的例子，完成了几个工作，一是参数类型从nsAString*换成wchar[] path，二检查异常。在一些更复杂的例子里，可能还有接口类型到外覆类型的转换、返回值转换（原来是把返回值生成一个out参数，异常风格将转换成和IDL形式一样的返回值）、数组参数转换（C＋＋版本是转成2个参数）。

这里说的异常风格指的是CheckException检查异常，其实更多的工作应该是D风格的转换，以后统一称为D风格算了。。

10 楼 DavidL 2007-04-27

没看代码，我不知道异常的封装是什么样的，听你这么说，如果xpcom设计成异常情况抛出异常就好了。

9 楼 qiezi 2007-04-27

引用计数是肯定要的，析构时调用Release说的是我们的D包装类，因为接口是没有析构的。你说的循环release我没看懂，指的是用D写XPCOM组件时要做的吗？一般对象引用计数大于0时不会析构，这可能需要找个地方做个引用呢。

COM或XPCOM一般不讲究是否继承，而是是否提供某接口，所以具体实现的部分可能根本没有继承。你上面这个具体的例子也只有查文档才知道了。现在测试主要测一下nsISupports里面的三个方法，还有一些nsXPCOM里面的方法，接口部分找几个测一下就可以了，全部测试工作量比较大。

8 楼 h_rain 2007-04-26

在自动管理release的时候，最麻烦的就是要再管理一个外部的引用计数，这样在申请的时候，AddRef，这个计数就++；在析构的时候，循环release，计数--。（这样能实现吗？）

另外，我今天在进行测试的时候，想将nsIDOMDocument接口转换为nsIDOMHTMLDocument接口，就是用nsIDOMDocument.QueryInterface查询得到nsIDOMHTMLDocument，但失败了，我在做ie的HTML控制的时候，就这么类似的用过，不知道为什么xpcom不能这么做。
nsIDOMHTMLDocument是继承自nsIDOMDocument的。

现在应该是需要比较多的测试才能发现所有转换引起的问题，这个是比较麻烦的...

7 楼 qiezi 2007-04-26

工具类和模板暂时不要全部转过来吧，不一定都能用上，到时候看缺哪些就转哪些，纯工具转的也不咋好。

6 楼 qiezi 2007-04-26

目前正在做的应该算是异常风格+D风格吧，新加的一些接口中有许多使用了一些C++里面的类型，这里称为native类型吧，这些比较难处理一些，目前我的办法是不处理它，编译用alias void*来定义，它们的外覆类都是VoidClass，什么也不做，占个位置，先把代码生成出来，不然不能继续了。另一个是数组，idl显然偏向于C++，所以数组类型在idl里面定义时有2个参数名称，这个转换也有点麻烦。好在现在只要把xpidl修改好了就可以把所有代码生成出来，所以工作量说起来也不算大，只是各种问题太多了些，没办法计算出所需要的时间亚。

目前CheckException还空着呢，有许多错误码要转成异常类型，这部分工作量也有点大，但比较独立，有时间可以看看这个。异常风格的包装对象在析构时会调用Release的，但又要防止重复Release，

5 楼 h_rain 2007-04-26

呵呵，刚才匆忙写上了就跑了。
我正想说，是不是在接口使用完毕后需要release。
明天有空把release给补上:)

qiezi，就等着D风格的包装了呢，哈哈。

关于接口的引用计数，在D风格包装里面，能实现自动管理吗？
看xpcom，里面好像还有很多的工具类与模板，这些是不是得手动修改过来啊？

to DavidL:
异常封装的里面其实也是需要有一个if然后抛出异常的，所以效率与上面相比，不会高到哪里去，就是在写代码的时候，不需要如此频繁的检查操作结果了。:(

4 楼 DavidL 2007-04-26

就我个人观点，异常封装应该成为唯一接口，这样运行效率最高，因为不发生异常占大多数情况。

3 楼 qiezi 2007-04-26

异常风格代码将只有你上面的1/3左右，因为你这里还使用断言检查了返回值，异常风格不需要这个，而还有的精简则是字符串、out参数、返回值等，都可以简化。

目前这个版本已经基本上可以达到编写、调用XPCOM，编写可能会有一些小问题，比如AddRef/Release后如何处理对象的释放问题，暂时还没时间考虑它，可以参考D里面ComObject的实现，它在Release后是不释放的，等到下次GC时才释放。不过细节上可能要考虑一下，有时间可以看看能不能编写。

2 楼 oldrev 2007-04-26

还差一个 ATL，呵呵

1 楼 qiezi 2007-04-26

一般正常的流程，在QueryInterface成功时会自动调用AddRef，调用完成以后要Release，否则也算是资源卸漏吧。

所以在NS_ShutdownXPCOM之前调用各个已经获取对象的Release应该是个好习惯，具体情况还要进行测试。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论