Hi,everyone
I have enjoyed Scrubyt for days and it worked greatly in most case.However,problems came out when scraped urls from Google and Yahoo at the same time.Here is my code:
require 'rubygems'
require 'scrubyt'
Scrubyt.logger = Scrubyt::Logger.new
query = 'ruby'
google_data = Scrubyt::Extractor.define do
fetch 'http://www.google.com/ncr'
fill_textfield 'q', query
submit
#retrieve by xpath
title "/html/body/div/div/div/a" do
url "href", :type => :attribute
end
end #end of extrator
google_file = File.open("google.xml", "w")
google_data.to_xml.write(google_file, 1)
google_file.close
yahoo_data = Scrubyt::Extractor.define do
fetch 'http://search.yahoo.com'
fill_textfield 'p', query
submit
#retrieve by xpath
title "/html/body/div/div/div/div/div/div/div/ol/li/div/h3/a" do
url "href", :type => :attribute
end
end #end of extrator
yahoo_file = File.open("yahoo.xml", "w")
yahoo_data.to_xml.write(yahoo_file, 1)
yahoo_file.close
Running Environment: Ubuntu 7.04 + Netbeans 6.0 + Scrubyt
google.xml
<root>
<title>
<url>http://www.ruby-lang.org/</url>
</title>
<title>
<url>http://www.ruby-lang.org/en/20020101.html</url>
</title>
...
<root>
yahoo.xml
<root>
<title>
<url>http://rds.yahoo.com/_ylt=A0oGklhqbodHe08AchtXNyoA;_ylu=X3oDMTE5MXY5dDllBHNlYwNzcgRwb3MDMQRjb2xvA3NrMQR2dGlkA1lTMTk4XzgyBGwDV1Mx/SIG=11ff2e34s/EXP=1200144362/**http%3a//www.ruby-lang.org/en</url>
</title>
<title>
<url>http://rds.yahoo.com/_ylt=A0oGklhqbodHe08AdBtXNyoA;_ylu=X3oDMTE5cHJpN25qBHNlYwNzcgRwb3MDMgRjb2xvA3NrMQR2dGlkA1lTMTk4XzgyBGwDV1Mx/SIG=12aq03736/EXP=1200144362/**http%3a//en.wikipedia.org/wiki/Ruby_programming_language</url>
</title>
...
<root>
If switched the order of two extractors,that's define yahoo extractor fitstly,the result changed:
google.xml
<root/>
yahoo.xml
<root>
<title>
<url>http://www.ruby-lang.org/en</url>
</title>
<title>
<url>http://en.wikipedia.org/wiki/Ruby_programming_language</url>
</title>
.....
<root>
It seems the latter extractor will be influenced by the former one. Since xpath I used for Yahoo is longer than Google, the result form Google is empty when defined Yahoo extractor firstly.
Why is that and how can I overcome this problem? Thanks in advance.
分享到:
- 2008-01-12 01:32
- 浏览 1631
- 评论(1)
- 论坛回复 / 浏览 (1 / 1978)
- 查看更多
相关推荐
"tm-extractors-0.4" 是一个特定版本的软件库,主要设计用于处理Word文档内容的提取和展示。这个库的目的是帮助开发者在他们的项目中方便地获取和显示Word文档中的信息,无需直接依赖Microsoft Word应用程序。将"tm-...
《tm-extractors-0.4.rar:深入解析Word处理工具》 在信息化时代,文档处理是日常工作中不可或缺的一部分,而Word作为最广泛使用的文本编辑软件之一,其处理工具的重要性不言而喻。"tm-extractors-0.4.rar"这个...
标题中的"poi+extractors"指的是Apache POI项目与数据提取相关的工具或方法。Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)和PowerPoint(.ppt,...
《Java读取DOC文件——基于tm-extractors-0.4.jar库的实践》 在IT行业中,处理各种文档格式是常见的任务之一,其中Microsoft Word的DOC文件尤为常见。Java作为一种广泛使用的编程语言,提供了丰富的库来处理这些...
《使用tm-extractors-0.4.jar进行Java中Word文档读取的实践指南》 在信息技术领域,处理文档是日常工作中不可或缺的一部分。在Java编程环境中,读取和操作Word文档是一个常见的需求,特别是在数据处理、信息提取和...
在这个场景中,我们关注的是“tm-extractors-0.4.jar”这个文件,它主要用于解析doc和txt等文件类型。这是一个Java库,专门设计来处理文本数据的提取和转换,这对于数据分析、信息检索、文档处理等领域非常有用。 ...
《tm-extractors-0.4.jar:文本挖掘与信息提取的利器》 在信息技术领域,数据处理和分析是至关重要的环节,而tm-extractors-0.4.jar则是一款专注于文本挖掘和信息提取的Java库。这个压缩包中的核心文件tm-...
"tm-extractors-0.4+jxl.rar" 是一个压缩包,它包含了两个重要的库文件,即 "jxl.jar" 和 "tm-extractors-0.4.jar",它们是实现这一目标的关键工具。 "jxl.jar" 是Java Excel API的库,允许开发者在Java应用程序中...
`tm-extractors-0.4.jar`是一个专门用于解析`.doc`文件的Java库,它能够将Microsoft Word的`.doc`文件内容转换为纯文本形式,便于进一步处理和分析。以下是对这个库的详细解释和相关知识点的展开。 1. **`.doc`文件...
从相似图像中提取相同密钥,fuzzy extractors:how to extract strong key from bio_picture
《tm-extractors-0.4.zip_exactly3ld_tm-extractors_tm-extractors-0.4》是一个专门用于处理Word文档的扩展工具包,它主要服务于那些需要从Microsoft Office 2003及更早版本的文档中提取信息的用户。这个工具的核心...
本主题将深入探讨如何使用Java IO和`tm-extractors-0.4.jar`库来实现这一功能。`tm-extractors`是一个开源库,它提供了从各种文件格式中提取文本的能力,包括Word文档。 首先,为了能够使用`tm-extractors`库,我们...
"extractors:数据提取器,用于将演示日期导入到api"这个标题揭示了一个专门用于从特定源(如演示日期)抽取数据并将其导入API的工具。这个工具被称为“extractors”,它属于data-utils集合,旨在简化数据处理流程。 ...
PyPI官网下载的资源"lhub_extractors-0.2.2-py3-none-any.whl"是一个特定版本的Python库,该库名为“lhub_extractors”,版本号为0.2.2。这个文件是一个.whl格式的包,它是Python的一种二进制分发格式,旨在简化安装...
### SRAM PUF 分析与模糊提取器 #### 弥足珍贵的安全技术:SRAM PUF与模糊提取器的研究 本项目聚焦于一种基于物理不可克隆功能(Physical Unclonable Function,简称PUF)的新型硬件认证系统。...
Graylog-OPNsense_Extractors Graylog的提取程序以解析OPNsense防火墙日志。 应该能够解析大多数所有IPv4和IPv6消息。 19年8月13日更新,以支持OPNsense消息格式更改。 18年6月21日更新至IPv6 ICMP。 OPNsense发送...
nocaps图像特征提取器 这个软件库脚本和Jupyter笔记本提取自底向上的图像所需特性在基准模型的集合nocaps 。 预训练权重和此代码库的某些部分来自和 。 如果您认为此代码有用,请考虑引用我们的论文和这些著作。...
dnif提取器即插即用提取器,可将不同的日志事件转换为通用的DNIF数据模型(DDM)提取器截至08-04-2021 设备类型小贩产品一体化溪流作业系统微软Windows(nxlog) NXLog(JSON) 身份验证,IAM,SYSMON过程,SYSMON...
该项目试图提供一些用JavaME编写的随机性提取器的实现,以供在加密移动应用程序中进一步使用。