Web-harvest里面的<script>标签,其自带的例子:
<var-def name="birthday">2/10/2008</var-def>
<var-def name="web_harvest_day_variable">
<script return="nameDay.toUpperCase()"><![CDATA[
tokenizer = new StringTokenizer(birthday.toString(),"./-\\");
day = Integer.parseInt(tokenizer.nextToken());
month = Integer.parseInt(tokenizer.nextToken());
year = Integer.parseInt(tokenizer.nextToken());
Calendar cal = Calendar.getInstance();
cal.set(Calendar.DAY_OF_MONTH,day);
cal.set(Calendar.MONTH,month);
cal.set(Calendar.YEAR,year);
switch(cal.get(Calendar.DAY_OF_WEEK))
{
case 0 : nameDay = birthday+" Sunday"; break;
case 1 : nameDay = birthday+" Monday"; break;
case 2 : nameDay = birthday+" Tuesday"; break;
case 3 : nameDay = birthday+" Wendsday"; break;
case 4 : nameDay = birthday+" Thursday"; break;
case 5 : nameDay = birthday+" Friday"; break;
default: nameDay = birthday+" Saturday"; break;
}
]]></script>
</var-def>
<file action="write" path="day.txt">
<template>The day when you were born was ${nameDay}.</template>
<var name="web_harvest_day_variable"/>
</file>
例子在<script>标签里面用了一种叫[url=
http://www.beanshell.org/home.html]beanshell[/url]的轻量级JAVA脚本语言,
在该脚本里面可以调用JAVA的各种基本的函数,使用起来比较灵活,但是有一点要注意的
是,在其里面不能直接调用平时JAVA里面的各种函数,而是要先进行类型的转换后才能进行
调用,比如上面和下面的例子中就是先进行转换再调用的:
<var-def name="hello">Hello to the world!</var-def>
<!-- 在script里面可以用外面定义的变量,但不能直接就拿来用,而是要先进行转化,比如说String要用到toString()
其它转换函数还有:
byte[] toBinary()
boolean toBoolean()
int toInt()
long toLong()
double toDouble()
Object[] toArray()
java.util.List toList()
Object getWrappedObject()
-->
<var-def name="test_str">
<script return="temp.toUpperCase()"><![CDATA[
temp = hello.toString();
]]></script>
</var-def>
<file action="write" path="script_1.txt">
<var name="test_str"/>
</file>
分享到:
相关推荐
Web-Harvest是一个用于Web数据挖掘的开源工具,它的核心功能是通过自定义的XML配置文件来抓取和处理目标网页中的数据。该工具支持多种技术,如XPath、XQuery和正则表达式,用于从HTML文档中提取所需信息。Web-...
**三、Web-Harvest脚本基础** Web-Harvest的配置文件通常以`.xml`格式存在,其中包含了一系列的元素和属性,描述了数据提取的流程。一个基本的脚本结构可能包括以下部分: - `config`:根元素,定义整个配置。 - `...
在本压缩包“Laravel开发-laravel-harvest .zip”中,我们聚焦于使用 Laravel 框架进行Web应用开发。Laravel 是一个优雅、强大的PHP框架,它旨在简化和加速开发流程,同时保持代码的可维护性和可扩展性。下面我们将...
### WebHarvest基础教程知识点详解 #### 一、WebHarvest简介 - **定义与功能**:WebHarvest是一款...尽管存在一定的学习难度和维护成本,但在面对大量Web数据处理需求时,WebHarvest依然是一个非常有价值的工具选择。
1. **高效性**:通过机器学习模型,算法能够更准确地预测链接的相关性,有效解决延迟收益问题,提高爬行的收益率(Harvest Rate)。 2. **自动化**:除初始化阶段需提供训练样本外,系统运行全程无需人工干预,实现了...
Web挖掘中,可能会讨论到如Harvest这样的工具,以及PageRank算法,这是一种衡量网页重要性的方法。此外,课程可能会涉及到代理服务器对数据收集的影响,以及如何解决由此产生的问题,例如在用户会话合并时如何识别...