基于web-webhavrest抓取百度搜索结果 -

code_lvp

浏览: 1390 次
性别:
来自: 宁夏

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2010-09 ( 1)
更多存档...

基于web-webhavrest抓取百度搜索结果

百度 Web XML HTML

由于公司业务需要，需要做一个关键词信息抓取程序，就利用web-webharvest做了一个抓取程序。
java程序：

import java.io.IOException;

import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;

public class BaiduQ {
public static void main(String[] args) throws IOException {

ScraperConfiguration config = new ScraperConfiguration("E:/webharvest/baiduQ.xml");
Scraper scraper = new Scraper(config, "E:/webharvest");
String sd = "玩具";
scraper.addVariableToContext("baiduURL", new String("http://www.baidu.com/s?wd="+sd));//设置查询地址
scraper.addVariableToContext("fileName", new String(sd));//设置查询结果保存文件
scraper.setDebug(true);
scraper.execute();

}

}

对应baiduQ.xml：

<config charset="gbk">


<var-def name="start" id="startpage">

<var-def name="baiduURL" overwrite="false"></var-def>

<var-def name="fileName" overwrite="false"></var-def>
<html-to-xml>
<http url="${baiduURL}"/>
</html-to-xml>
</var-def>


<var-def name="urlList" id="urlList">
<xpath expression="//table[@class='result']">
<var name="start"/>
</xpath>
</var-def>


<file action="write" path="${fileName}.xml" charset="utf-8">
<![CDATA[ <catalog> ]]>
<loop item="item" index="i">
<list><var name="urlList"/></list>
<body>
<xquery>
<xq-param name="item" type="node()"><var name="item"/></xq-param>
<xq-expression><![CDATA[
declare variable $item as node() external;

let $name := data($item//tr/td/a/font)
let $url := data($item//tr/td/a[1]/@href)
return
<website>
<name>{normalize-space($name)}</name>
<url>{normalize-space($url)}</url>
</website>
]]></xq-expression>
</xquery>
</body>
</loop>
<![CDATA[ </catalog> ]]>
</file>
</config>

该程序运行后是把结果存入xml中，基本解决了抓取的问题。

分享到：

2010-09-22 10:47
浏览 1390
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于web-webhavrest抓取百度搜索结果

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于web-webhavrest抓取百度搜索结果

评论

发表评论

相关推荐

最近访客更多访客>>