`
wangtao0501
  • 浏览: 56629 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于Web-Harvest精确采集互联网的数据

阅读更多
一、背景



在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢?现在有RSS、博客等服务,但是并不能完全满足我们的需求,因为很多信息并不是以格式化的数据形式提供出来,于是聪明的工程师想出了精确搜索的方法,从而出现大量的垂直搜索网站(比如酷讯),确实火了一把。当然我们无法得知他们是怎么实现的,但是我们也可以实现这种精确采集,开源的Web-Harvest就是类似的技术,之前曾经接触过,故写出来分享给大家。



二、WebHarvest简介



Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。

Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用,Web-Harvest 还提供了变量上下方用于存储已经声明的变量。

上述流程的执行结果可以存储在执行中创建的文件中或者是编程时的上下文环境中使用。



一、配置语言



每个提取过程都被定义在了一个或多个基于XML 的配置文件中,而且被描述为特定的或是结构化的XML 元素中。为了更好地说明,下面列举了一个配置文件来进行说明:



<config charset=”gbk”>



         <!– 页面爬取开始,按照关键词:“玩具”来搜索 –>

         <var-def name=”start” >

                  <html-to-xml>

                            <http url=”http://www.baidu.com/s?wd=玩具“/>

                  </html-to-xml>

         </var-def>



         <!– 获取竞价排名的企业网站列表 –>

         <var-def name=”urlList” >

                  <xpath expression=”//div[@class='r']“>

                            <var name=”start”/>

                  </xpath>

         </var-def>



         <!– 循环 urlList ,并把结果写入到XML文件中 –>

    <file action=”write” path=”baidu/catalog.xml” charset=”utf-8″>

        <![CDATA[ <catalog> ]]>

        <loop item=”item” index=”i”>

            <list><var name=”urlList”/></list>

            <body>

                <xquery>

                    <xq-param name=”item” type=”node()”><var name=”item”/></xq-param>

                    <xq-expression><![CDATA[

                            declare variable $item as node() external;



                            let $name := data($item//span/font[1]/text()[1])

                            let $url := data($item//span/font[2]/text())

                                return

                                    <website>

                                        <name>{normalize-space($name)}</name>

                                        <url>{normalize-space($url)}</url>

                                    </website>

                    ]]></xq-expression>

                </xquery>

            </body>

        </loop>

        <![CDATA[ </catalog> ]]>

    </file>



</config>



上述的配置文件包含了三段。



第一段的执行步骤:

1. 下载http://www.baidu.com/s?wd=玩具 里面的内容;

2. 清除下载内容里面的HTML 以产生XHTML;

3.



第二段的执行步骤:

1. 用XPath 表达式从所给的URL 里面提取搜索结果;

2. 用一个新的变量“urlList”来保存上面的搜索结果;



第三段是利用上一段的搜索结果来提取相应的信息:

1. 循环里面迭代每一个item;

2. 获取每个item的name和url;

3. 将其保存在文件系统里;





有了配置文件(把该配置文件保存为:baidu.xml),我们再往前一步,写几行代码:



import java.io.IOException;
import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;

public class Test {

    public static void main(String[] args) throws IOException {

        ScraperConfiguration config = new ScraperConfiguration(”c:/baidu.xml”);
        Scraper scraper = new Scraper(config, “c:/tmp/”);
        scraper.setDebug(true);
      
        long startTime = System.currentTimeMillis();
        scraper.execute();
        System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime));
      
    }
}



让我们执行一下,看看结果:

<catalog>

         <website>

                   <name>上海丽强 专业大型</name>

                   <url>www.liqiang-toy.com</url>

         </website>

         <website>

                   <name>多样型大型</name>

                   <url>www.yonglangplay.com</url>

         </website>

         <website>

                   <name>童博士卡通</name>

                   <url>www.tbs88.com</url>

         </website>

         <website>

                   <name>芝麻街</name>

                   <url>c49.txooo.js.cn</url>

         </website>

         <website>

                   <name>童博士, 中国平价学生用品..</name>

                   <url>www.cfsj8.cn</url>

         </website>

         <website>

                   <name>充气</name>

                   <url>www.xmcaili.com</url>

         </website>

         <website>

                   <name>找木制</name>

                   <url>www.tengyuetoys.com</url>

         </website>

         <website>

                   <name>米多迪</name>

                   <url>b146.txooo.com</url>

         </website>

</catalog>



是不是很酷。爬虫就这么简单。



二、深入考虑



不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和Java通过Ibatis读取数据库数据的方式类似。

那我们是否可以实现这样的机制呢,把整个互联网作为我们的庞大的数据库,我们随意的读取。

       

Web-Harvest提供了一个 ScraperContext , 可以在该上下文中设置Java对象,可以通过Java对象收集相应的结果数据,(比如:设置Map,可以通过Map收集数据)



Scraper 提供了这样的方法:

    scraper.getContext().put(“resDataSet”, new ResultDataSet()); 

ResultDataSet是收集数据的Java对象。

那么我们就可以这么做:

a)   首先设置要访问的网页的路径

scraper.getContext().put(“startPageHref”, “http://www.baidu.com/s?cl=3&wd=儿童玩具“); 

b)   第二步,设置要收集返回数据的容器

scraper.getContext().put(“resDataSet”, new ResultDataSet()); 

c)   在配置文件中就可以这样设置数据

${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)};

d)   爬取操作执行完毕后,即可返回数据:

ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”); 

Ok,我们就可以随心所欲的使用这些数据,详细请看附件。



三、分页机制处理

a)         来由介绍

现在的信息量很大,在展示的时候都是通过分页处理的。

a)         实现机制

那我们怎么处理呢?分页提取数据我们得明确几件事情

1.         分页器的处理,比如:页码、页大小、记录数或页数。

2.         “下一页”的地址的构造

3.         每页数据的爬取



不同的网站的分页机制都不一样,我们如何处理呢?当然我们不能通过硬编码的方式来处理,我们就通过Web-Harvest的配置文件来实现。

       



         Web-Harvest 本身的配置文件结构为:

                   <config charset=”gbk”>

                            配置信息

                   </config>

       

         对这个结构进行扩展:

       

<web-harvest-config>

  <!– 生成分页器配置 –>

  <config charset=”gbk” id=”pagination”>

          配置信息

  </config>

  <!– 组装下一页地址 –>

  <config charset=”gbk” id=”urlnav”>

          配置信息

  </config>

  <!– 抓取列表数据 –> 

  <config charset=”gbk” id=”listData”>

          配置信息

  </config>

</web-harvest-config>

       

         我们就可以通过三个config项来处理

l  第一步,通过 id=”pagination” 的配置生成分页器

l  第二步,通过已经生成的分页器加上 id=”urlnav” 的配置构造下一页的URL

l  第三步,通过 id=”listData” 的配置提取需要的数据





一、Web-Harvest的优缺点

优点:

l  Web-Harvest是一个使用比较方便的抓取信息的API库,目前是1.0版本

l  扩展性好,只要修改配置文件即可

l  上手较快,使用方便。

l  



缺点:

l  处理过程比较多,对应的速度较慢



二、其他使用过或者正在尝试的精确抓取数据的方式

a)         使用HTMLParser

HTMLParser可以分析HTML 源码中的TAG(比如Table,DIV等),还可以自己定义TAG(比如:ENET),通过查找特定的Tag,提取相应的数据。由于没有很多的中间处理过程,速度较快,缺点是有很多的硬编码,难以扩展。或许能找出一个特定的表达式可以快速的提取数据。

b)         使用HTMLClean

该方式还是走HTML->XML的路线,首先通过HtmlClean把抓取的网页内容转化为XML格式数据,然后通过XPATH、XSL等方式对XML数据进行转化,达到收集数据的目的。Web-Harvest是类似的方式,但是我们可以精简化,提高抓取的效率。



三、使用爬虫碰到的问题

a)         网站对频繁抓取数据的爬虫进行IP限制问题

考虑使用IP代理,但是速度难以忍受,故现在在考虑分布式的抓取数据的方式





四、相关参考

a)         http://web-harvest.sourceforge.net
0
0
分享到:
评论

相关推荐

    [Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析

    Web-Harvest是一款开源的数据采集工具,主要用于自动化地从网页上提取信息。在这个主题中,我们将深入探讨Web-Harvest的基础知识,特别是如何利用它来抓取Java代码进行分析。在进行数据采集时,理解配置文件、抓取类...

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    [Web-Harvest数据采集之一]Web-Harvest基础-配置文件分析源码

    web-harvest解析及源文件

    Web-Harvest是一种开源的、基于Java的网页数据提取工具,它允许用户通过编写XML配置文件来定义数据抽取规则,从而实现对网页内容的自动化处理和分析。这个压缩包文件包含了一些与Web-Harvest相关的学习资料和源文件...

    web-Harvest帮助手册

    总之,web-Harvest是一个强大的Web数据提取工具,结合XPath和XQuery,可以实现高效、精确的数据抓取和处理,为数据驱动的决策提供强有力的支持。通过熟练掌握其使用,可以大大提高工作效率,解决多种数据获取和处理...

    Web-Harvest学习笔记.doc

    Web-Harvest的工作流程是基于用户定义的XML配置文件,这些配置文件描述了数据提取和处理的规则。配置文件中的指令,如`&lt;xpath&gt;`和`&lt;html-to-xml&gt;`,用于指定如何解析和获取数据。 在Web-Harvest中,数据处理是通过...

    Web-Harvest手册

    Web-Harvest是一款强大的网页数据提取工具,它通过配置文件来定义复杂的网页抓取和处理逻辑。本手册将深入介绍Web-Harvest配置文件的结构和元素,帮助用户理解和运用这款工具。 首先,Web-Harvest配置文件的核心是...

    试用Web-Harvest 使用手册

    总之,Web-Harvest提供了强大的网页数据提取能力,通过理解和实践,我们可以利用它进行高效的数据采集和处理。对于需要处理大量网页数据的项目,Web-Harvest无疑是一个值得尝试的工具。通过不断的探索和学习,你可以...

    Web-Harvest学习笔记

    Web-Harvest学习笔记,主要是异常类的使用,标签的使用,scraper的源码等操作

    Laravel开发-laravel-harvest

    $projects = $harvest-&gt;projects()-&gt;all(); // 进行其他操作... } ``` 此外,`laravel-harvest` 可能还提供了额外的便利方法,如模型映射、数据转换等,以适应 Laravel 的 Eloquent ORM,使得与数据库的交互更加...

    Python库 | pytest-harvest-1.7.4.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:pytest-harvest-1.7.4.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    基于Nutch的Web网站定向采集系统

    ### 基于Nutch的Web网站定向采集系统 #### 摘要 本文主要讨论了基于Nutch的Web网站定向采集系统的构建方法和技术细节。首先对比分析了几款主流的开源网络抓取软件:Nutch、Heritrix、WCT(The Web Curator Tool)...

    Laravel开发-harvest-api

    1. **安装依赖**:首先,我们需要通过Composer安装一个Laravel客户端库,如`harvest-php-api`,它提供了一个方便的封装层,使与Harvest API交互变得更简单。在终端中运行: ``` composer require kylekatarnls/...

    web-harvest

    web harvest的jar包 提供一个xml编辑环境

    java开源软件项目网络爬虫-webharvest

    The main goal behind Web-Harvest is to empower the usage of already existing extraction technologies. Its purpose is not to propose a new method, but to provide a way to easily use and combine the ...

    Laravel开发-laravel-harvest .zip

    例如,`$harvest = App\Harvest::find(1)`可以获取ID为1的harvest数据,而`$harvest-&gt;save()`则可以保存模型的更改。 11. **Blade 模板**: Blade模板允许在视图中混合PHP代码,提供条件语句(@if, @else, @endif...

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流.zip

    alfred-harvest, 在收获过程中,用于跟踪时间的Alfred工作流 ,,workflow,workflow,workflow,workflow 。让 帮你追踪时间。 这里工作流使你可以完全访问你的收获时间跟踪:查看今天的计时器启动/停止计时器查看...

    WebList-Harvest:这是EECS433课程项目

    从压缩包文件名称“WebList-Harvest-master”可以看出,这是一个开源项目,包含了项目的主分支源代码。用户可以下载并研究其源码,理解并学习如何实现这样的网络数据收获工具。 总结来说,WebList-Harvest项目是...

    ckanext-distributed-harvester:此扩展扩展了 CKAN 插件 ckanext-harvest 以支持分布式收获功能

    注意:此插件基于当前版本的 CKAN 扩展 ckanext-harvest v2.0。 要安装它,请运行: (pyenv) $ pip install -e git+...

Global site tag (gtag.js) - Google Analytics