使用web-harvest抓取分页数据(二)

scnujie

浏览: 128401 次
性别:
来自: 广州

最近访客更多访客>>

gabiymy

l307041438

if(i!=我){}

caiitly

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java...

Web Java XML

   除了使用上述方法外，还可以使用将不页的数据输出到不同的结构化好的XML文件里面，

然后再进行读取的方法：

    配置文件：

 <var-def name="targetUrl">http://www.51zyr.com/tpl/index/hotel_list_web.do</var-def> 
       
       <var name="page_num"/> 
       
        <file action="write" path="hotel_page${page_num}.xml">    
           
          <template>
              <![CDATA[ <root> ]]>
          </template>     
               
        <loop item="item" index="i">
          <list>
             <xpath expression="//table[@background='../images/dotline.gif'][1]/tbody/tr">
                <html-to-xml>
                   <http url="${targetUrl}?pages=${page_num}"/> //这里根据从JAVA文件传过来的参数进行不同页面的查询抓取
                </html-to-xml>
            </xpath>          
          </list>
          <body>      
               <xquery>
                    <xq-param name="item">
                        <var name="item"/>
                    </xq-param>
                    <xq-expression><![CDATA[
                        declare variable $item as node() external;
                        
                        let $num := data($item//td[1])
                        let $name := data($item//td[2])
                        let $star := data($item//td[3])
                        let $address := data($item//td[4])
                        let $telephone := data($item//td[5])
                            return
                                <hotel>
                                    <num>{data($num)}</num>
                                    <name>{data($name)}</name>
                                    <star>{data($star)}</star>
                                    <address>{data($address)}</address>
                                    <telephone>{data($telephone)}</telephone>
                                </hotel>
                    ]]></xq-expression>
                </xquery>
               
          </body>
        </loop>
         <![CDATA[ </root> ]]>
             </file>

   接着是JAVA文件里面的关键代码：

public void QueryPath(int num) 
	{
		   try{
		    ScraperConfiguration config = new ScraperConfiguration("traveldata/config/hotel.xml");
	        Scraper scraper = new Scraper(config, "traveldata/output/hotel");
	        
	        scraper.addVariableToContext("page_num", new String(""+num)); 
	        
		    scraper.setDebug(true);
	        long starttime = System.currentTimeMillis();
	        scraper.execute();
	        long endtime = System.currentTimeMillis();
	        System.out.println("Spent time:"+(endtime - starttime));	  
	        
	        saveHotel(num);
	        
		   }
		   catch(Exception e)
		   {
			   e.printStackTrace();
		   }
	}

  public void getContent(int pageNum)  //循环调用
	{
		for(int i=1;i<=pageNum;i++)
		{
			QueryPath(i);
		}
	}

分享到：

web-harvest基础学习一 | 使用Web-Harvest抓取分页的数据

2008-10-14 16:40
浏览 3452
评论(1)
论坛回复 / 浏览 (1 / 3673)
分类:企业架构
查看更多

1 楼 zzhzzh204553 2008-11-01

这些循环操作，可以全部写在XML文件中。
不然又要写java代码，又要考虑xml文件

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用web-harvest抓取分页数据(二)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用web-harvest抓取分页数据(二)

评论

发表评论

相关推荐

spring里quartz调度的连续触发

web-harvest基础学习一

使用Web-Harvest抓取分页的数据

使用Web-Harvest抓取数据并保存到数据库(一)

用cactus测试servlet(三)

用cactus测试servlet(二)

html截取摘要并补齐标签(htmlparser)二

Struts2中的文件上传

JAVA常见的异常(收藏)

监听器ServletContextListener小记

java 里的文件生成与删除

用dom4j读写数据

临时记录

Struts里面容易出现乱码的地方及解决方法

Struts与Velocity的简单集成

用apache poi 读取excel文件很方便

顺序生成,无聊代码...

最近访客更多访客>>