a.xml
<?xml version="1.0" encoding="UTF-8"?>
<config charset="UTF-8">
<var-def name="freelist">
<xpath expression="//tbody[@id]">
<html-to-xml>
<http url="${targetUrl}"/>
</html-to-xml>
</xpath>
</var-def>
<file action="write" path="c.xml">
<template>
<![CDATA[ <root> ]]>
</template>
<loop item="freeitem" index="i">
<list>
<var name="freelist"/>
</list>
<body>
<xquery>
<xq-param name="freeitem">
<var name="freeitem"/>
</xq-param>
<xq-expression><![CDATA[
declare variable $freeitem as node() external;
let $title := data($freeitem//tr/th[@class]/span[@id]/a[1])
let $strong := data($freeitem//tr/td[@class='nums']/strong[1])
let $em := data($freeitem//tr/td[@class='nums']/em[1])
return
<result>
<title>{normalize-space($title)} </title>
<total>{normalize-space($strong)} </total>
<num>{normalize-space($em)} </num>
</result>
]]></xq-expression>
</xquery>
</body>
</loop>
<![CDATA[ </root> ]]>
</file>
</config>
test.java
ScraperConfiguration config = new ScraperConfiguration("a.xml");
Scraper scraper = new Scraper(config, "eee/");
scraper.addVariableToContext("targetUrl", new String("http://bbs.cdream.com/forumdisplay.php?fid=51"));//这里主
scraper.setDebug(true);
scraper.execute();
分享到:
相关推荐
1. webharvest官方网站参考手册地址: http://web-harvest.sourceforge.net/manual.php 2. 一个介绍XPath、XQuery 以及 XSLT 函数的网址 http://www.w3school.com.cn/xpath/xpath_functions.asp 3. 另一个参考地址 ...
### WebHarvest基础教程知识点详解 #### 一、WebHarvest简介 - **定义与功能**:WebHarvest是一款开源的Web数据抓取工具,基于Java编写,主要用于从Web页面中提取所需的数据。该工具支持多种数据处理技术,如XSLT...
webharvest_API参考文档.CHM webharvest_API参考文档.CHM
WebHarvest是一个强大的开源数据抓取框架,专为自动化网页数据提取而设计。它允许用户通过简单的配置文件定义抓取规则,从而从互联网上收集、处理和存储所需的数据。这个框架以其灵活性和可扩展性而著称,适用于各种...
【webharvest1-bin.zip】是一个包含开源Java桌面应用程序的压缩包,主要用于从网络上的论坛和网站抓取自定义内容。这个工具的核心价值在于它的灵活性和可定制性,用户可以根据需求编写XML配置文件来定义要抓取的数据...
Webharvest是一款开源的网页抓取和数据提取工具,它允许用户通过配置XML脚本来定义如何从网页中抓取和处理信息。在本案例中,“HTML_500”可能指的是包含了500个HTML页面或者与500相关的某种测试场景。 **HTML(超...
WebHarvest是一个开源的、基于Java的网络爬虫工具,其源码的分析将为我们提供深入理解网络爬虫工作原理的机会。它允许用户通过配置文件定制化爬取过程,适用于各种复杂的网页抓取需求。 首先,`build.xml`是Ant构建...
webharvest_all_2.jar
WebHarvest是一款强大的网页数据抽取和处理工具,它允许用户通过配置文件定义一系列操作来从网页中提取所需信息。WebHarvest的配置文件基于XML结构,包含了一系列预定义和用户自定义的变量与对象,以及多种处理元素...
Webharvest是一款开源的数据提取工具,它主要用于网页抓取和数据挖掘。在Web开发和数据分析领域,爬虫扮演着至关重要的角色,它们能够自动化地从互联网上获取大量信息,为研究、统计或个性化推荐等应用提供数据支持...
1. template目录下的三个模板分别是 sina_1. 抓取全网财经要闻-新浪(一条新闻) sina_2. 抓取主流财经网站要闻区-新浪(列表新闻) sina_3....sina_3_img 保存了图文混合的图片 2. 实例采用了XQuery表达式[loop、...
The main goal behind Web-Harvest is to empower the usage of already existing extraction technologies. Its purpose is not to propose a new method, but to provide a way to easily use and combine the ...
WebHarvest是一个强大的、可扩展的网页数据提取工具,它允许用户通过XML配置文件定义规则来抓取并处理网络上的信息。本教程将带你深入了解WebHarvest的基本使用和配置,帮助你快速上手进行网页抓取。 首先,我们来...
NULL 博文链接:https://xpenxpen.iteye.com/blog/1101618
Web-Harvest是一种开源的、基于Java的网页数据提取工具,它允许用户通过编写XML配置文件来定义数据抽取规则,从而实现对网页内容的自动化处理和分析。这个压缩包文件包含了一些与Web-Harvest相关的学习资料和源文件...
2. **运行**:在命令行中,使用Java运行环境执行`java -jar webharvest_all_2.jar`命令,启动Web-Harvest。 **三、Web-Harvest脚本基础** Web-Harvest的配置文件通常以`.xml`格式存在,其中包含了一系列的元素和...