`
scnujie
  • 浏览: 127748 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

web-harvest基础学习一

阅读更多
  Web-harvest里面的<script>标签,其自带的例子:

 
<var-def name="birthday">2/10/2008</var-def>
  
  <var-def name="web_harvest_day_variable">
     <script return="nameDay.toUpperCase()"><![CDATA[
         tokenizer = new StringTokenizer(birthday.toString(),"./-\\");
         
         day = Integer.parseInt(tokenizer.nextToken());
         month = Integer.parseInt(tokenizer.nextToken());
         year = Integer.parseInt(tokenizer.nextToken());
         
         Calendar cal = Calendar.getInstance();
         cal.set(Calendar.DAY_OF_MONTH,day);
         cal.set(Calendar.MONTH,month);
         cal.set(Calendar.YEAR,year);
         
         switch(cal.get(Calendar.DAY_OF_WEEK))
         {
            case 0 : nameDay = birthday+" Sunday"; break;
            case 1 : nameDay = birthday+" Monday"; break;
            case 2 : nameDay = birthday+" Tuesday"; break;
            case 3 : nameDay = birthday+" Wendsday"; break;
            case 4 : nameDay = birthday+" Thursday"; break;
            case 5 : nameDay = birthday+" Friday"; break;
            default: nameDay = birthday+" Saturday"; break;
         }
     ]]></script>
  </var-def>
  
  <file action="write" path="day.txt">
     <template>The day when you were born was ${nameDay}.</template>
     <var name="web_harvest_day_variable"/>
  </file>


  例子在<script>标签里面用了一种叫[url=

http://www.beanshell.org/home.html]beanshell[/url]的轻量级JAVA脚本语言,

在该脚本里面可以调用JAVA的各种基本的函数,使用起来比较灵活,但是有一点要注意的

是,在其里面不能直接调用平时JAVA里面的各种函数,而是要先进行类型的转换后才能进行

调用,比如上面和下面的例子中就是先进行转换再调用的:

 
 <var-def name="hello">Hello to the world!</var-def>
  
  <!-- 在script里面可以用外面定义的变量,但不能直接就拿来用,而是要先进行转化,比如说String要用到toString()
       其它转换函数还有:
                        byte[] toBinary()
                        boolean toBoolean()
                        int toInt()
                        long toLong()
                        double toDouble()
                        Object[] toArray()
                        java.util.List toList()
                        Object getWrappedObject()
   -->
  
  <var-def name="test_str">
     <script return="temp.toUpperCase()"><![CDATA[           
            temp = hello.toString();  
     ]]></script>
  </var-def>
  
  <file action="write" path="script_1.txt">
     <var name="test_str"/>
  </file>
分享到:
评论

相关推荐

    [Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析

    在这个主题中,我们将深入探讨Web-Harvest的基础知识,特别是如何利用它来抓取Java代码进行分析。在进行数据采集时,理解配置文件、抓取类以及所需依赖的JAR包是至关重要的。 首先,让我们从配置文件开始。Web-...

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    Web-Harvest学习笔记.doc

    Web-Harvest是一个用于Web数据挖掘的开源工具,它的核心功能是通过自定义的XML配置文件来抓取和处理目标网页中的数据。该工具支持多种技术,如XPath、XQuery和正则表达式,用于从HTML文档中提取所需信息。Web-...

    web-harvest解析及源文件

    Web-Harvest是一种开源的、基于Java的网页数据提取工具,它允许用户通过编写XML配置文件来定义数据抽取规则,从而实现对网页内容的自动化处理和分析。这个压缩包文件包含了一些与Web-Harvest相关的学习资料和源文件...

    web-Harvest帮助手册

    web-Harvest是一款强大的、可扩展的Web数据提取工具,它允许用户通过编写简单的配置脚本来抓取和处理网页上的信息。这款开源工具使用Java语言开发,适用于各种操作系统,并且支持XPath和XQuery等技术,使得数据提取...

    Web-Harvest手册

    Web-Harvest是一款强大的网页数据提取工具,它通过配置文件来定义复杂的网页抓取和处理逻辑。本手册将深入介绍Web-Harvest配置文件的结构和元素,帮助用户理解和运用这款工具。 首先,Web-Harvest配置文件的核心是...

    试用Web-Harvest 使用手册

    **三、Web-Harvest脚本基础** Web-Harvest的配置文件通常以`.xml`格式存在,其中包含了一系列的元素和属性,描述了数据提取的流程。一个基本的脚本结构可能包括以下部分: - `config`:根元素,定义整个配置。 - `...

    Web-Harvest学习笔记

    Web-Harvest学习笔记,主要是异常类的使用,标签的使用,scraper的源码等操作

    Laravel开发-laravel-harvest

    **Laravel 开发框架与 Laravel Harvest 深度解析** Laravel 是一款广泛使用的开源 PHP 框架,以其优雅的语法和强大的功能受到...通过深入学习和使用这个库,你可以提升项目管理效率,打造更加强大的 Web 应用程序。

    Python库 | pytest-harvest-1.7.4.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:pytest-harvest-1.7.4.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Laravel开发-harvest-api

    **一、Laravel框架基础** Laravel由Taylor Otwell创建,以其简洁的语法和强大的功能而闻名。它提供了丰富的工具,如Eloquent ORM(对象关系映射)、Artisan命令行工具、Blade模板引擎和一套完整的认证系统,大大...

    web-harvest

    web harvest的jar包 提供一个xml编辑环境

    Laravel开发-laravel-harvest .zip

    在本压缩包“Laravel开发-laravel-harvest .zip”中,我们聚焦于使用 Laravel 框架进行Web应用开发。Laravel 是一个优雅、强大的PHP框架,它旨在简化和加速开发流程,同时保持代码的可维护性和可扩展性。下面我们将...

    java开源软件项目网络爬虫-webharvest

    The main goal behind Web-Harvest is to empower the usage of already existing extraction technologies. Its purpose is not to propose a new method, but to provide a way to easily use and combine the ...

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流.zip

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流 ,,workflow,workflow,workflow,workflow 。让 帮你追踪时间。 这里工作流使你可以完全访问你的收获时间跟踪:查看今天的计时器启动/停止计时器查看...

    LiuLingZ#review-and-harvest#mybatis的Mapper自动映射原理1

    1、导言 2、解析 3、总结

    WebList-Harvest:这是EECS433课程项目

    WebList-Harvest是一个专为EECS433课程设计的项目,其主要目标是实现一个基于论文的网络列表收获工具。这个工具旨在从互联网上的列表中提取并整理出结构化的关系表,为数据挖掘和分析提供方便。它特别关注于如何有效...

    基于Nutch的Web网站定向采集系统

    首先对比分析了几款主流的开源网络抓取软件:Nutch、Heritrix、WCT(The Web Curator Tool)以及Web-Harvest,并在此基础上提出了一套适用于特定领域或主题的网站定向采集系统。该系统针对种子站点的选择、抓取过程...

Global site tag (gtag.js) - Google Analytics