`
scnujie
  • 浏览: 128876 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

web-harvest基础学习一

阅读更多
  Web-harvest里面的<script>标签,其自带的例子:

 
<var-def name="birthday">2/10/2008</var-def>
  
  <var-def name="web_harvest_day_variable">
     <script return="nameDay.toUpperCase()"><![CDATA[
         tokenizer = new StringTokenizer(birthday.toString(),"./-\\");
         
         day = Integer.parseInt(tokenizer.nextToken());
         month = Integer.parseInt(tokenizer.nextToken());
         year = Integer.parseInt(tokenizer.nextToken());
         
         Calendar cal = Calendar.getInstance();
         cal.set(Calendar.DAY_OF_MONTH,day);
         cal.set(Calendar.MONTH,month);
         cal.set(Calendar.YEAR,year);
         
         switch(cal.get(Calendar.DAY_OF_WEEK))
         {
            case 0 : nameDay = birthday+" Sunday"; break;
            case 1 : nameDay = birthday+" Monday"; break;
            case 2 : nameDay = birthday+" Tuesday"; break;
            case 3 : nameDay = birthday+" Wendsday"; break;
            case 4 : nameDay = birthday+" Thursday"; break;
            case 5 : nameDay = birthday+" Friday"; break;
            default: nameDay = birthday+" Saturday"; break;
         }
     ]]></script>
  </var-def>
  
  <file action="write" path="day.txt">
     <template>The day when you were born was ${nameDay}.</template>
     <var name="web_harvest_day_variable"/>
  </file>


  例子在<script>标签里面用了一种叫[url=

http://www.beanshell.org/home.html]beanshell[/url]的轻量级JAVA脚本语言,

在该脚本里面可以调用JAVA的各种基本的函数,使用起来比较灵活,但是有一点要注意的

是,在其里面不能直接调用平时JAVA里面的各种函数,而是要先进行类型的转换后才能进行

调用,比如上面和下面的例子中就是先进行转换再调用的:

 
 <var-def name="hello">Hello to the world!</var-def>
  
  <!-- 在script里面可以用外面定义的变量,但不能直接就拿来用,而是要先进行转化,比如说String要用到toString()
       其它转换函数还有:
                        byte[] toBinary()
                        boolean toBoolean()
                        int toInt()
                        long toLong()
                        double toDouble()
                        Object[] toArray()
                        java.util.List toList()
                        Object getWrappedObject()
   -->
  
  <var-def name="test_str">
     <script return="temp.toUpperCase()"><![CDATA[           
            temp = hello.toString();  
     ]]></script>
  </var-def>
  
  <file action="write" path="script_1.txt">
     <var name="test_str"/>
  </file>
分享到:
评论

相关推荐

    Web-Harvest学习笔记.doc

    Web-Harvest是一个用于Web数据挖掘的开源工具,它的核心功能是通过自定义的XML配置文件来抓取和处理目标网页中的数据。该工具支持多种技术,如XPath、XQuery和正则表达式,用于从HTML文档中提取所需信息。Web-...

    试用Web-Harvest 使用手册

    **三、Web-Harvest脚本基础** Web-Harvest的配置文件通常以`.xml`格式存在,其中包含了一系列的元素和属性,描述了数据提取的流程。一个基本的脚本结构可能包括以下部分: - `config`:根元素,定义整个配置。 - `...

    Laravel开发-laravel-harvest .zip

    在本压缩包“Laravel开发-laravel-harvest .zip”中,我们聚焦于使用 Laravel 框架进行Web应用开发。Laravel 是一个优雅、强大的PHP框架,它旨在简化和加速开发流程,同时保持代码的可维护性和可扩展性。下面我们将...

    webharvest基础教程 pdf

    ### WebHarvest基础教程知识点详解 #### 一、WebHarvest简介 - **定义与功能**:WebHarvest是一款...尽管存在一定的学习难度和维护成本,但在面对大量Web数据处理需求时,WebHarvest依然是一个非常有价值的工具选择。

    使用联合链接相似度评估爬取Web资源

    1. **高效性**:通过机器学习模型,算法能够更准确地预测链接的相关性,有效解决延迟收益问题,提高爬行的收益率(Harvest Rate)。 2. **自动化**:除初始化阶段需提供训练样本外,系统运行全程无需人工干预,实现了...

    《数据挖掘与管理决策》课程教学大纲.docx

    Web挖掘中,可能会讨论到如Harvest这样的工具,以及PageRank算法,这是一种衡量网页重要性的方法。此外,课程可能会涉及到代理服务器对数据收集的影响,以及如何解决由此产生的问题,例如在用户会话合并时如何识别...

Global site tag (gtag.js) - Google Analytics