使用Web-Harvest抓取分页的数据

scnujie

浏览: 128415 次
性别:
来自: 广州

最近访客更多访客>>

gabiymy

l307041438

if(i!=我){}

caiitly

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java...

Web XML

   可以利用其自带的例子里面已经写好了的那个函数，在Functions.xml文件里面，只要

在配置文件的开头把include进来就行了；

    Functions.xml文件如下：

<function name="download-multipage-list">
        <return>
            <while condition="${pageUrl.toString().length() != 0}" maxloops="${maxloops}" index="i">
                <empty>
                    <var-def name="content">
                        <html-to-xml>
                            <http url="${pageUrl}"/>
                        </html-to-xml>
                    </var-def>

                    <var-def name="nextLinkUrl">
                        <xpath expression="${nextXPath}">
                            <var name="content"/>
                        </xpath>
                    </var-def>

                    <var-def name="pageUrl">
                        <template>${sys.fullUrl(pageUrl.toString(), nextLinkUrl.toString())}</template>
                    </var-def>
                </empty>
    
                <xpath expression="${itemXPath}">
                    <var name="content"/>
                </xpath>
            </while>
        </return>
    </function>

其里面的各个参数的意义：

    

第一个是指开始的那个页面的URL;

第二个是指你要在页面里面取得的一个list,比如说是href的List或者说是一个tr的

List,我下面的例子就是取得一个tr的List;

第三个是指下一个页面的URL；

第四个是指循环查找的页数；

这就是我所写的配置文件：

 <include path="functions.xml"/>
                
    <var-def name="hotels">    
        <call name="download-multipage-list">
            <call-param name="pageUrl">http://www.51zyr.com/tpl/index/hotel_list_web.do?page=1</call-param>
            <call-param name="nextXPath">//a[contains(text(),'下页')]/@href</call-param>
            <call-param name="itemXPath">//table[@background='../images/dotline.gif']/tbody/tr</call-param>
            <call-param name="maxloops">10</call-param>
        </call>
    </var-def>
    
    <file action="write" path="51zyr/hotels.xml">
        <![CDATA[ <hotels> ]]>
        <loop item="item" index="i">
            <list><var name="hotels"/></list>
            <body>
                <xquery>
                    <xq-param name="item" type="node()"><var name="item"/></xq-param>
                    <xq-expression><![CDATA[
                            declare variable $item as node() external;

                            let $num := data($item//td[1])
                            let $name := data($item//td[2])
                            let $star := data($item//td[3])
                            let $address := data($item//td[4])
                            let $telephone := data($item//td[5])
                                return
                                    <hotel>
                                        <num>{data($num)}</num>
                                        <name>{data($name)}</name>
                                        <star>{data($star)}</star>
                                        <address>{data($address)}</address>
                                        <telephone>{data($telephone)}</telephone>
                                    </hotel>
                    ]]></xq-expression>
                </xquery>
            </body>
        </loop>
        <![CDATA[ </hotels> ]]>
    </file>

3
顶

0
踩

分享到：

使用web-harvest抓取分页数据(二) | 使用Web-Harvest抓取数据并保存到数据库( ...

2008-10-14 14:07
浏览 4607
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论