`
wangtao0501
  • 浏览: 57550 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于Web-Harvest精确采集互联网的数据

阅读更多
一、背景



在当前信息空前爆炸的时代,人们不再担心信息的匮乏,而是为筛选有用的信息付出大量的代价。那么如何采集有用的信息呢?现在有RSS、博客等服务,但是并不能完全满足我们的需求,因为很多信息并不是以格式化的数据形式提供出来,于是聪明的工程师想出了精确搜索的方法,从而出现大量的垂直搜索网站(比如酷讯),确实火了一把。当然我们无法得知他们是怎么实现的,但是我们也可以实现这种精确采集,开源的Web-Harvest就是类似的技术,之前曾经接触过,故写出来分享给大家。



二、WebHarvest简介



Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。

Web-Harvest 的主要目的是加强现有数据提取技术的应用。它的目标不是创造一种新方法,而是提供一种更好地使用和组合现有方法的方式。它提供了一个处理器集用于处理数据和控制流程,每一个处理器被看作是一个函数,它拥有参数和执行后同样有结果返回。而且处理是被组合成一个管道的形式,这样使得它们可以以链式的形式来执行,此外为了更易于数据操作和重用,Web-Harvest 还提供了变量上下方用于存储已经声明的变量。

上述流程的执行结果可以存储在执行中创建的文件中或者是编程时的上下文环境中使用。



一、配置语言



每个提取过程都被定义在了一个或多个基于XML 的配置文件中,而且被描述为特定的或是结构化的XML 元素中。为了更好地说明,下面列举了一个配置文件来进行说明:



<config charset=”gbk”>



         <!– 页面爬取开始,按照关键词:“玩具”来搜索 –>

         <var-def name=”start” >

                  <html-to-xml>

                            <http url=”http://www.baidu.com/s?wd=玩具“/>

                  </html-to-xml>

         </var-def>



         <!– 获取竞价排名的企业网站列表 –>

         <var-def name=”urlList” >

                  <xpath expression=”//div[@class='r']“>

                            <var name=”start”/>

                  </xpath>

         </var-def>



         <!– 循环 urlList ,并把结果写入到XML文件中 –>

    <file action=”write” path=”baidu/catalog.xml” charset=”utf-8″>

        <![CDATA[ <catalog> ]]>

        <loop item=”item” index=”i”>

            <list><var name=”urlList”/></list>

            <body>

                <xquery>

                    <xq-param name=”item” type=”node()”><var name=”item”/></xq-param>

                    <xq-expression><![CDATA[

                            declare variable $item as node() external;



                            let $name := data($item//span/font[1]/text()[1])

                            let $url := data($item//span/font[2]/text())

                                return

                                    <website>

                                        <name>{normalize-space($name)}</name>

                                        <url>{normalize-space($url)}</url>

                                    </website>

                    ]]></xq-expression>

                </xquery>

            </body>

        </loop>

        <![CDATA[ </catalog> ]]>

    </file>



</config>



上述的配置文件包含了三段。



第一段的执行步骤:

1. 下载http://www.baidu.com/s?wd=玩具 里面的内容;

2. 清除下载内容里面的HTML 以产生XHTML;

3.



第二段的执行步骤:

1. 用XPath 表达式从所给的URL 里面提取搜索结果;

2. 用一个新的变量“urlList”来保存上面的搜索结果;



第三段是利用上一段的搜索结果来提取相应的信息:

1. 循环里面迭代每一个item;

2. 获取每个item的name和url;

3. 将其保存在文件系统里;





有了配置文件(把该配置文件保存为:baidu.xml),我们再往前一步,写几行代码:



import java.io.IOException;
import org.webharvest.definition.ScraperConfiguration;
import org.webharvest.runtime.Scraper;

public class Test {

    public static void main(String[] args) throws IOException {

        ScraperConfiguration config = new ScraperConfiguration(”c:/baidu.xml”);
        Scraper scraper = new Scraper(config, “c:/tmp/”);
        scraper.setDebug(true);
      
        long startTime = System.currentTimeMillis();
        scraper.execute();
        System.out.println(”time elapsed: ” + (System.currentTimeMillis() - startTime));
      
    }
}



让我们执行一下,看看结果:

<catalog>

         <website>

                   <name>上海丽强 专业大型</name>

                   <url>www.liqiang-toy.com</url>

         </website>

         <website>

                   <name>多样型大型</name>

                   <url>www.yonglangplay.com</url>

         </website>

         <website>

                   <name>童博士卡通</name>

                   <url>www.tbs88.com</url>

         </website>

         <website>

                   <name>芝麻街</name>

                   <url>c49.txooo.js.cn</url>

         </website>

         <website>

                   <name>童博士, 中国平价学生用品..</name>

                   <url>www.cfsj8.cn</url>

         </website>

         <website>

                   <name>充气</name>

                   <url>www.xmcaili.com</url>

         </website>

         <website>

                   <name>找木制</name>

                   <url>www.tengyuetoys.com</url>

         </website>

         <website>

                   <name>米多迪</name>

                   <url>b146.txooo.com</url>

         </website>

</catalog>



是不是很酷。爬虫就这么简单。



二、深入考虑



不知道大家看到上面的配置、代码和结果是否感觉很熟悉。是否和Java通过Ibatis读取数据库数据的方式类似。

那我们是否可以实现这样的机制呢,把整个互联网作为我们的庞大的数据库,我们随意的读取。

       

Web-Harvest提供了一个 ScraperContext , 可以在该上下文中设置Java对象,可以通过Java对象收集相应的结果数据,(比如:设置Map,可以通过Map收集数据)



Scraper 提供了这样的方法:

    scraper.getContext().put(“resDataSet”, new ResultDataSet()); 

ResultDataSet是收集数据的Java对象。

那么我们就可以这么做:

a)   首先设置要访问的网页的路径

scraper.getContext().put(“startPageHref”, “http://www.baidu.com/s?cl=3&wd=儿童玩具“); 

b)   第二步,设置要收集返回数据的容器

scraper.getContext().put(“resDataSet”, new ResultDataSet()); 

c)   在配置文件中就可以这样设置数据

${resDataSet.addRecord(“searchResult”,“totalSearchResult”,totalSearchResult)};

d)   爬取操作执行完毕后,即可返回数据:

ResultDataSet resultDataSet = (ResultDataSet)scraper.getContext().get(“resDataSet”); 

Ok,我们就可以随心所欲的使用这些数据,详细请看附件。



三、分页机制处理

a)         来由介绍

现在的信息量很大,在展示的时候都是通过分页处理的。

a)         实现机制

那我们怎么处理呢?分页提取数据我们得明确几件事情

1.         分页器的处理,比如:页码、页大小、记录数或页数。

2.         “下一页”的地址的构造

3.         每页数据的爬取



不同的网站的分页机制都不一样,我们如何处理呢?当然我们不能通过硬编码的方式来处理,我们就通过Web-Harvest的配置文件来实现。

       



         Web-Harvest 本身的配置文件结构为:

                   <config charset=”gbk”>

                            配置信息

                   </config>

       

         对这个结构进行扩展:

       

<web-harvest-config>

  <!– 生成分页器配置 –>

  <config charset=”gbk” id=”pagination”>

          配置信息

  </config>

  <!– 组装下一页地址 –>

  <config charset=”gbk” id=”urlnav”>

          配置信息

  </config>

  <!– 抓取列表数据 –> 

  <config charset=”gbk” id=”listData”>

          配置信息

  </config>

</web-harvest-config>

       

         我们就可以通过三个config项来处理

l  第一步,通过 id=”pagination” 的配置生成分页器

l  第二步,通过已经生成的分页器加上 id=”urlnav” 的配置构造下一页的URL

l  第三步,通过 id=”listData” 的配置提取需要的数据





一、Web-Harvest的优缺点

优点:

l  Web-Harvest是一个使用比较方便的抓取信息的API库,目前是1.0版本

l  扩展性好,只要修改配置文件即可

l  上手较快,使用方便。

l  



缺点:

l  处理过程比较多,对应的速度较慢



二、其他使用过或者正在尝试的精确抓取数据的方式

a)         使用HTMLParser

HTMLParser可以分析HTML 源码中的TAG(比如Table,DIV等),还可以自己定义TAG(比如:ENET),通过查找特定的Tag,提取相应的数据。由于没有很多的中间处理过程,速度较快,缺点是有很多的硬编码,难以扩展。或许能找出一个特定的表达式可以快速的提取数据。

b)         使用HTMLClean

该方式还是走HTML->XML的路线,首先通过HtmlClean把抓取的网页内容转化为XML格式数据,然后通过XPATH、XSL等方式对XML数据进行转化,达到收集数据的目的。Web-Harvest是类似的方式,但是我们可以精简化,提高抓取的效率。



三、使用爬虫碰到的问题

a)         网站对频繁抓取数据的爬虫进行IP限制问题

考虑使用IP代理,但是速度难以忍受,故现在在考虑分布式的抓取数据的方式





四、相关参考

a)         http://web-harvest.sourceforge.net
0
0
分享到:
评论

相关推荐

    nutch定向采集

    基于Nutch的Web网站定向采集系统,通过精准的种子站点选取、高效的抓取过程管理、有效的网页去噪和智能的新种子站点发现机制,能够在保证数据质量的同时,显著提升抓取效率。该系统为科学研究、数据分析和信息检索等...

    Harvest-开源

    总的来说,Harvest是一个功能全面、灵活可扩展的开源搜索引擎框架,它通过分布式爬取、信息提取、索引构建和Web展示,实现了对互联网数据的强大检索能力。对于那些需要构建自定义搜索引擎的开发者和组织,Harvest...

    C2000系列DSP芯片串口读写方案与FlashPro2000编程器应用详解

    内容概要:本文详细介绍了基于TMS320F系列芯片的C2000串口读写方案及其编程器——FlashPro2000的功能特点和支持的接口模式。文中不仅涵盖了硬件连接的具体步骤,还提供了代码实例来展示Flash擦除操作,并对比了JTAG和SCI-BOOT两种模式的优缺点。此外,针对不同型号的C2000系列芯片,给出了详细的适配指导以及避免烧录过程中可能出现的问题的方法。 适合人群:从事DSP开发的技术人员,尤其是对TI公司C2000系列芯片有一定了解并希望深入了解其编程和烧录细节的人群。 使用场景及目标:适用于实验室环境下的程序调试阶段,以及生产线上的批量烧录任务。主要目的是帮助开发者选择合适的编程工具和技术手段,提高工作效率,减少因误操作导致设备损坏的风险。 其他说明:文中提供的代码片段和命令行指令可以直接用于实际项目中,同时附带了一些实用技巧,如防止芯片变砖的小贴士和自动化重试脚本,有助于解决常见的烧录难题。

    汉字字库存储芯片扩展实验通常是为了学习和理解如何在嵌入式系统或计算机硬件中增加或管理存储资源,特别是针对需要处理中文字符的应用 这类实验对于想要深入了解计算机体系结构、嵌入式开发以及汉字编码的学生和工

    汉字字库存储芯片扩展实验 # 汉字字库存储芯片扩展实验 ## 实验目的 1. 了解汉字字库的存储原理和结构 2. 掌握存储芯片扩展技术 3. 学习如何通过硬件扩展实现大容量汉字字库存储 ## 实验原理 ### 汉字字库存储基础 - 汉字通常采用点阵方式存储(如16×16、24×24、32×32点阵) - 每个汉字需要占用32字节(16×16)到128字节(32×32)不等的存储空间 - 国标GB2312-80包含6763个汉字,需要较大存储容量 ### 存储芯片扩展方法 1. **位扩展**:增加数据总线宽度 2. **字扩展**:增加存储单元数量 3. **混合扩展**:同时进行位扩展和字扩展 ## 实验设备 - 单片机开发板(如STC89C52) - 存储芯片(如27C256、29C040等) - 逻辑门电路芯片(如74HC138、74HC373等) - 示波器、万用表等测试设备 - 连接线若干 ## 实验步骤 ### 1. 单芯片汉字存储实验 1. 连接27C256 EPROM芯片到单片机系统 2. 将16×16点阵汉字字库写入芯片 3. 编写程序读取并显示汉字 ### 2. 存储芯片字扩展实验 1. 使用地址译码器(如74HC138)扩展多片27C256 2. 将完整GB2312字库分布到各芯片中 3. 编写程序实现跨芯片汉字读取 ### 3. 存储芯片位扩展实验 1. 连接两片27C256实现16位数据总线扩展 2. 优化字库存储结构,提高读取速度 3. 测试并比较扩展前后的性能差异 ## 实验代码示例(单片机部分) ```c #include <reg52.h> #include <intrins.h> // 定义存储芯片控制引脚 sbit CE = P2^7; // 片选 sbit OE = P2^6; // 输出使能 sbit

    测控装备干扰源快速侦测系统设计研究.pdf

    测控装备干扰源快速侦测系统设计研究.pdf

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    嵌入式八股文面试题库资料知识宝典-【开发】嵌入式开源项目&库&资料.zip

    嵌入式八股文面试题库资料知识宝典-百度2022年嵌入式面试题.zip

    嵌入式八股文面试题库资料知识宝典-百度2022年嵌入式面试题.zip

    少儿编程scratch项目源代码文件案例素材-空间站.zip

    少儿编程scratch项目源代码文件案例素材-空间站.zip

    基于关联规则的商业银行个性化产品推荐.pdf

    基于关联规则的商业银行个性化产品推荐.pdf

    嵌入式八股文面试题库资料知识宝典-Linux基础使用.zip

    嵌入式八股文面试题库资料知识宝典-Linux基础使用.zip

    MATLAB仿真轴棱锥生成贝塞尔高斯光束及环形光束光强图像分析

    内容概要:本文详细介绍了利用MATLAB进行轴棱锥生成贝塞尔高斯光束及环形光束光强图像的仿真研究。首先阐述了实验的背景与目标,强调了MATLAB在光学和计算科学领域的广泛应用。接着,具体描述了实验的方法与步骤,包括材料准备、仿真过程中的参数设定和光束生成代码编写。最后,对实验结果进行了深入分析,展示了贝塞尔高斯光束和环形光束的光强分布特点,验证了其光学性能的预期表现。文章还对未来的研究方向和技术改进提出了展望。 适合人群:从事光学、物理学及相关领域研究的专业人士,特别是对光束生成和光学性能分析感兴趣的科研工作者。 使用场景及目标:适用于需要进行光束生成和性能分析的实验室环境,旨在帮助研究人员更好地理解和优化光束特性和传播行为。 其他说明:本文不仅提供了详细的实验方法和步骤,还附有丰富的实验结果和数据分析,为后续研究提供了宝贵的参考资料。

    三电平NPC型APF模型预测控制中滞环控制模块的应用与开关频率优化研究

    内容概要:本文探讨了三电平NPC型有源电力滤波器(APF)的模型预测控制(MPC)中存在的开关频率过高问题及其解决方案。传统MPC方法会导致极高的开关频率,增加了系统的能耗和热量。通过引入滞环控制模块,可以在不大幅牺牲性能的情况下有效降低开关频率。具体来说,滞环控制通过在价值函数计算后增加一个判断条件,对状态切换进行惩罚,从而减少不必要的开关动作。实验结果显示,开关频率从4392Hz降至3242Hz,降幅达26.2%,虽然电流总谐波畸变率(THD)略有上升,但仍符合国家标准。此外,文中还提出了动态调整滞环宽度的方法,以进一步优化不同负载条件下的表现。 适合人群:从事电力电子、电力系统控制领域的研究人员和技术人员,特别是关注APF和MPC技术的人群。 使用场景及目标:适用于需要优化APF系统开关频率的研究和工程项目,旨在提高系统效率并降低成本。目标是在不影响系统性能的前提下,显著降低开关频率,减少能量损失和热管理难度。 其他说明:文章不仅提供了理论分析,还包括具体的实现代码片段,有助于读者理解和实践。同时,强调了在实际应用中需要注意的问题,如中点电位漂移等。

    计算流体力学中三维POD DMD程序的原网格处理方法及应用

    内容概要:本文介绍了三维POD DMD程序在处理原网格数据方面的独特优势和技术细节。首先阐述了该程序能读取结构化和非结构化网格数据及其拓扑关系,在生成模态数据过程中保持原始网格形态而不需要进行网格插值操作。接着展示了简化版本的Python代码片段,揭示了读取网格数据和生成模态数据的核心逻辑。最后提到提供的辅助学习资料如代码、视频教程、Word教程和实例数据,帮助用户深入理解并掌握该程序的应用。 适合人群:从事计算流体力学领域的研究人员和技术爱好者,尤其是那些希望提高数据处理效率的人群。 使用场景及目标:适用于需要处理复杂网格数据的研究项目,旨在简化数据处理流程,提升工作效率,同时保持数据的原始特性。 其他说明:文中不仅提供了理论性的讲解,还有具体的代码示例和丰富的学习资源,使读者可以边学边练,快速上手。

    融合双向路由注意力的多尺度X光违禁品检测.pdf

    融合双向路由注意力的多尺度X光违禁品检测.pdf

    嵌入式八股文面试题库资料知识宝典-Linux_Shell基础使用.zip

    嵌入式八股文面试题库资料知识宝典-Linux_Shell基础使用.zip

    嵌入式八股文面试题库资料知识宝典-联发科2021武汉嵌入式软件开发.zip

    嵌入式八股文面试题库资料知识宝典-联发科2021武汉嵌入式软件开发.zip

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    基于有限体积法Godunov格式的管道泄漏检测模型研究.pdf

    嵌入式八股文面试题库资料知识宝典-ARM常见面试题目.zip

    嵌入式八股文面试题库资料知识宝典-ARM常见面试题目.zip

    基于LWR问题的无证书全同态加密方案.pdf

    基于LWR问题的无证书全同态加密方案.pdf

    嵌入式八股文面试题库资料知识宝典-符坤面试经验.zip

    嵌入式八股文面试题库资料知识宝典-符坤面试经验.zip

Global site tag (gtag.js) - Google Analytics