`
Dustin
  • 浏览: 315491 次
  • 性别: Icon_minigender_1
  • 来自: 广州/成都
社区版块
存档分类
最新评论

Two extractors couldn't work together

阅读更多

Hi,everyone
  I have enjoyed Scrubyt for days and it worked greatly in most case.However,problems came out when scraped urls from Google and Yahoo at the same time.Here is my code:

 

require 'rubygems'
require 'scrubyt'

Scrubyt.logger = Scrubyt::Logger.new
query = 'ruby'
google_data = Scrubyt::Extractor.define do
      fetch 'http://www.google.com/ncr'
      fill_textfield 'q', query
      submit
      
      #retrieve by xpath
      title "/html/body/div/div/div/a" do
        url "href", :type => :attribute
      end
    end #end of extrator
 google_file = File.open("google.xml", "w")
 google_data.to_xml.write(google_file, 1)
 google_file.close
 
 yahoo_data = Scrubyt::Extractor.define do
      fetch 'http://search.yahoo.com'
      fill_textfield 'p', query
      submit
      
       #retrieve by xpath
      title "/html/body/div/div/div/div/div/div/div/ol/li/div/h3/a" do
        url "href", :type => :attribute
      end
 end #end of extrator
   
 yahoo_file = File.open("yahoo.xml", "w")
 yahoo_data.to_xml.write(yahoo_file, 1)
 yahoo_file.close

 

 

Running Environment: Ubuntu 7.04 + Netbeans 6.0 + Scrubyt

 

google.xml

<root>
    <title>
      <url>http://www.ruby-lang.org/</url>
    </title>
    <title>
      <url>http://www.ruby-lang.org/en/20020101.html</url>
    </title>
    ...
<root>

 

 

yahoo.xml

<root>
    <title>
      <url>http://rds.yahoo.com/_ylt=A0oGklhqbodHe08AchtXNyoA;_ylu=X3oDMTE5MXY5dDllBHNlYwNzcgRwb3MDMQRjb2xvA3NrMQR2dGlkA1lTMTk4XzgyBGwDV1Mx/SIG=11ff2e34s/EXP=1200144362/**http%3a//www.ruby-lang.org/en</url>
    </title>
    <title>
      <url>http://rds.yahoo.com/_ylt=A0oGklhqbodHe08AdBtXNyoA;_ylu=X3oDMTE5cHJpN25qBHNlYwNzcgRwb3MDMgRjb2xvA3NrMQR2dGlkA1lTMTk4XzgyBGwDV1Mx/SIG=12aq03736/EXP=1200144362/**http%3a//en.wikipedia.org/wiki/Ruby_programming_language</url>
    </title>
       ...
<root>

 

If switched the order of two extractors,that's define yahoo extractor fitstly,the result changed:


google.xml

<root/>

 

yahoo.xml

<root>
    <title>
      <url>http://www.ruby-lang.org/en</url>
    </title>
    <title>
      <url>http://en.wikipedia.org/wiki/Ruby_programming_language</url>
    </title>
    .....
<root> 

 

It seems the latter extractor will be influenced by the former one. Since xpath  I used for Yahoo is longer than Google, the result form Google is empty when defined Yahoo extractor firstly. 
  Why is that and how can I overcome this problem? Thanks in advance.

分享到:
评论
1 楼 Dustin 2008-01-12  
Update Scrubyt 0.3.4 to 0.4.01

相关推荐

    tm-extractors-0.4

    "tm-extractors-0.4" 是一个特定版本的软件库,主要设计用于处理Word文档内容的提取和展示。这个库的目的是帮助开发者在他们的项目中方便地获取和显示Word文档中的信息,无需直接依赖Microsoft Word应用程序。将"tm-...

    tm-extractors-0.4.rar

    《tm-extractors-0.4.rar:深入解析Word处理工具》 在信息化时代,文档处理是日常工作中不可或缺的一部分,而Word作为最广泛使用的文本编辑软件之一,其处理工具的重要性不言而喻。"tm-extractors-0.4.rar"这个...

    poi+extractors

    标题中的"poi+extractors"指的是Apache POI项目与数据提取相关的工具或方法。Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)和PowerPoint(.ppt,...

    tm-extractors-0.4.jar.zip

    《Java读取DOC文件——基于tm-extractors-0.4.jar库的实践》 在IT行业中,处理各种文档格式是常见的任务之一,其中Microsoft Word的DOC文件尤为常见。Java作为一种广泛使用的编程语言,提供了丰富的库来处理这些...

    tm-extractors-0.4.jar

    《使用tm-extractors-0.4.jar进行Java中Word文档读取的实践指南》 在信息技术领域,处理文档是日常工作中不可或缺的一部分。在Java编程环境中,读取和操作Word文档是一个常见的需求,特别是在数据处理、信息提取和...

    解析doc,txt等文件,需要的tm-extractors-0.4.jar包

    在这个场景中,我们关注的是“tm-extractors-0.4.jar”这个文件,它主要用于解析doc和txt等文件类型。这是一个Java库,专门设计来处理文本数据的提取和转换,这对于数据分析、信息检索、文档处理等领域非常有用。 ...

    包含tm-extractors-0.4.jar

    《tm-extractors-0.4.jar:文本挖掘与信息提取的利器》 在信息技术领域,数据处理和分析是至关重要的环节,而tm-extractors-0.4.jar则是一款专注于文本挖掘和信息提取的Java库。这个压缩包中的核心文件tm-...

    tm-extractors-0.4+jxl.rar

    "tm-extractors-0.4+jxl.rar" 是一个压缩包,它包含了两个重要的库文件,即 "jxl.jar" 和 "tm-extractors-0.4.jar",它们是实现这一目标的关键工具。 "jxl.jar" 是Java Excel API的库,允许开发者在Java应用程序中...

    解析doc文件,需要的tm-extractors-0.4.jar包

    `tm-extractors-0.4.jar`是一个专门用于解析`.doc`文件的Java库,它能够将Microsoft Word的`.doc`文件内容转换为纯文本形式,便于进一步处理和分析。以下是对这个库的详细解释和相关知识点的展开。 1. **`.doc`文件...

    fuzzy extractors2

    从相似图像中提取相同密钥,fuzzy extractors:how to extract strong key from bio_picture

    tm-extractors-0.4.zip_exactly3ld_tm-extractors_tm-extractors-0.4

    《tm-extractors-0.4.zip_exactly3ld_tm-extractors_tm-extractors-0.4》是一个专门用于处理Word文档的扩展工具包,它主要服务于那些需要从Microsoft Office 2003及更早版本的文档中提取信息的用户。这个工具的核心...

    java 读取word文件

    本主题将深入探讨如何使用Java IO和`tm-extractors-0.4.jar`库来实现这一功能。`tm-extractors`是一个开源库,它提供了从各种文件格式中提取文本的能力,包括Word文档。 首先,为了能够使用`tm-extractors`库,我们...

    extractors:数据提取器,用于将演示日期导入到api

    "extractors:数据提取器,用于将演示日期导入到api"这个标题揭示了一个专门用于从特定源(如演示日期)抽取数据并将其导入API的工具。这个工具被称为“extractors”,它属于data-utils集合,旨在简化数据处理流程。 ...

    PyPI 官网下载 | lhub_extractors-0.2.2-py3-none-any.whl

    PyPI官网下载的资源"lhub_extractors-0.2.2-py3-none-any.whl"是一个特定版本的Python库,该库名为“lhub_extractors”,版本号为0.2.2。这个文件是一个.whl格式的包,它是Python的一种二进制分发格式,旨在简化安装...

    SRAM PUF Analysis and Fuzzy Extractors

    ### SRAM PUF 分析与模糊提取器 #### 弥足珍贵的安全技术:SRAM PUF与模糊提取器的研究 本项目聚焦于一种基于物理不可克隆功能(Physical Unclonable Function,简称PUF)的新型硬件认证系统。...

    Graylog-OPNsense_Extractors:用于Graylog的JSON提取器以解析OPNsense防火墙日志

    Graylog-OPNsense_Extractors Graylog的提取程序以解析OPNsense防火墙日志。 应该能够解析大多数所有IPv4和IPv6消息。 19年8月13日更新,以支持OPNsense消息格式更改。 18年6月21日更新至IPv6 ICMP。 OPNsense发送...

    image-feature-extractors:用于nocaps基准的特征提取和可视化脚本

    nocaps图像特征提取器 这个软件库脚本和Jupyter笔记本提取自底向上的图像所需特性在基准模型的集合nocaps 。 预训练权重和此代码库的某些部分来自和 。 如果您认为此代码有用,请考虑引用我们的论文和这些著作。...

    extractors:即插即用提取器,可将不同的日志事件转换为通用的DNIF数据模型(DDM)

    dnif提取器即插即用提取器,可将不同的日志事件转换为通用的DNIF数据模型(DDM)提取器截至08-04-2021 设备类型小贩产品一体化溪流作业系统微软Windows(nxlog) NXLog(JSON) 身份验证,IAM,SYSMON过程,SYSMON...

    Mobile Randomness Extractors-开源

    该项目试图提供一些用JavaME编写的随机性提取器的实现,以供在加密移动应用程序中进一步使用。

Global site tag (gtag.js) - Google Analytics