`
macken
  • 浏览: 345603 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Web-harvest 2.0 Maven 配置

    博客分类:
  • Java
 
阅读更多

 

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>TestWebHarvest</groupId>
	<artifactId>TestWebHarvest</artifactId>
	<version>0.0.1-SNAPSHOT</version>
	<repositories>
		<repository>
			<id>wso2</id>
			<url>http://dist.wso2.org/maven2/</url>
		</repository>
	</repositories>
	<dependencies>
		<dependency>
			<groupId>org.webharvest.wso2</groupId>
			<artifactId>webharvest-core</artifactId>
			<version>2.0.0.wso2v1</version>
			<type>jar</type>
		</dependency>
		<dependency>
			<groupId>commons-logging</groupId>
			<artifactId>commons-logging</artifactId>
			<version>1.1</version>
		</dependency>
		<dependency>
			<groupId>commons-cli</groupId>
			<artifactId>commons-cli</artifactId>
			<version>1.1</version>
		</dependency>
		<dependency>
			<groupId>commons-collections</groupId>
			<artifactId>commons-collections</artifactId>
			<version>3.1</version>
		</dependency>
		<dependency>
			<groupId>commons-codec</groupId>
			<artifactId>commons-codec</artifactId>
			<version>1.3</version>
		</dependency>
		<dependency>
			<groupId>net.sf.saxon</groupId>
			<artifactId>saxon-xom</artifactId>
			<version>8.7</version>
		</dependency>
		<dependency>
			<groupId>bsh</groupId>
			<artifactId>bsh</artifactId>
			<version>1.3.0</version>
		</dependency>
		<dependency>
			<groupId>net.sourceforge.htmlcleaner</groupId>
			<artifactId>htmlcleaner</artifactId>
			<version>2.2</version>
		</dependency>
	</dependencies>
</project>

 

分享到:
评论

相关推荐

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    [Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析

    Web-Harvest使用XML格式的配置文件来定义采集任务,这些文件包含了定义如何抓取和处理网页信息的所有指令。例如,你可以设置URL、指定要抓取的元素、定义如何解析和转换数据等。配置文件的结构清晰,易于阅读,使得...

    web-harvest解析及源文件

    Web-Harvest是一种开源的、基于Java的网页数据提取工具,它允许用户通过编写XML配置文件来定义数据抽取规则,从而实现对网页内容的自动化处理和分析。这个压缩包文件包含了一些与Web-Harvest相关的学习资料和源文件...

    web-Harvest帮助手册

    web-Harvest是一款强大的、可扩展的Web数据提取工具,它允许用户通过编写简单的配置脚本来抓取和处理网页上的信息。这款开源工具使用Java语言开发,适用于各种操作系统,并且支持XPath和XQuery等技术,使得数据提取...

    Web-Harvest学习笔记.doc

    Web-Harvest是一个用于Web数据挖掘的开源工具,它的核心功能是通过自定义的XML配置文件来抓取和处理目标网页中的数据。该工具支持多种技术,如XPath、XQuery和正则表达式,用于从HTML文档中提取所需信息。Web-...

    Web-Harvest手册

    Web-Harvest还提供了2.0版本的新功能,如`mail`用于发送电子邮件,`mail-attach`添加邮件附件,`zip`创建ZIP归档,`ftp`执行FTP服务器操作,`tokenize`将文本分割成令牌,`json-to-xml`将JSON转换为XML,`xml-to-...

    试用Web-Harvest 使用手册

    Web-Harvest是一款强大的、开源的Web数据提取工具,它允许用户通过简单的配置文件定义规则来抓取网页内容。本手册将深入探讨如何试用Web-Harvest,理解其基本概念和核心功能,以便于在实际项目中灵活应用。 **一、...

    Web-Harvest学习笔记

    Web-Harvest学习笔记,主要是异常类的使用,标签的使用,scraper的源码等操作

    Python库 | pytest-harvest-1.7.4.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:pytest-harvest-1.7.4.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Laravel开发-laravel-harvest

    $projects = $harvest-&gt;projects()-&gt;all(); // 进行其他操作... } ``` 此外,`laravel-harvest` 可能还提供了额外的便利方法,如模型映射、数据转换等,以适应 Laravel 的 Eloquent ORM,使得与数据库的交互更加...

    java开源软件项目网络爬虫-webharvest

    The main goal behind Web-Harvest is to empower the usage of already existing extraction technologies. Its purpose is not to propose a new method, but to provide a way to easily use and combine the ...

    Laravel开发-laravel-harvest .zip

    例如,`$harvest = App\Harvest::find(1)`可以获取ID为1的harvest数据,而`$harvest-&gt;save()`则可以保存模型的更改。 11. **Blade 模板**: Blade模板允许在视图中混合PHP代码,提供条件语句(@if, @else, @endif...

    web-harvest

    web harvest的jar包 提供一个xml编辑环境

    Laravel开发-harvest-api

    1. **安装依赖**:首先,我们需要通过Composer安装一个Laravel客户端库,如`harvest-php-api`,它提供了一个方便的封装层,使与Harvest API交互变得更简单。在终端中运行: ``` composer require kylekatarnls/...

    ckanext-distributed-harvester:此扩展扩展了 CKAN 插件 ckanext-harvest 以支持分布式收获功能

    注意:此插件基于当前版本的 CKAN 扩展 ckanext-harvest v2.0。 要安装它,请运行: (pyenv) $ pip install -e git+...

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流.zip

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流 ,,workflow,workflow,workflow,workflow 。让 帮你追踪时间。 这里工作流使你可以完全访问你的收获时间跟踪:查看今天的计时器启动/停止计时器查看...

    LiuLingZ#review-and-harvest#mybatis的Mapper自动映射原理1

    1、导言 2、解析 3、总结

    WebList-Harvest:这是EECS433课程项目

    从压缩包文件名称“WebList-Harvest-master”可以看出,这是一个开源项目,包含了项目的主分支源代码。用户可以下载并研究其源码,理解并学习如何实现这样的网络数据收获工具。 总结来说,WebList-Harvest项目是...

Global site tag (gtag.js) - Google Analytics