阅读更多

6顶
1踩

编程语言

原创新闻 Nokogiri - 比Hpricot还要快的Ruby的HTML/XML解析器

2008-11-01 13:14 by 见习编辑 robbin 评论(3) 有7400人浏览
Aaron Patterson和Mike Dalessio开发了一个新的Ruby解析HTML/XML的ruby库 - Nokogiri。他的速度比目前应用的最广泛的Hpricot还要快许多。经过Benchmark测试表明,Nokogiri在加载XML文档的速度是Hpricot的7倍,在XPATH搜索的速度是Hpricot的5倍,而在CSS选择器的搜索上面是Hpricot的1.62倍。

因此Nokogiri被认为有可能取代Hpricot的新一代Ruby的解析库,他能够解析HTML/XML文件,能够提供XPATH支持,CSS选择器支持。安装Nokogiri的办法很简单:

gem install nokogiri


6
1
评论 共 3 条 请登录后发表评论
3 楼 CharlesCui 2008-11-14 11:16
他能否比较两个xml片段?
2 楼 lgn21st 2008-11-01 22:09
他没有用libxml-ruby,而是自行封装了libxml,然后又实现了hpricot的语法,顺便从libxml那里得到了sax方式解析xml的能力,处理非标准html恐怕是个问题,libxml/libxml-ruby在这个方面明显不如hpricot...
1 楼 花花公子 2008-11-01 21:59
原来他用了libxml-ruby,就是不知道解析非标准html速度如何。

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • IIS设置方法

       IIS (Internet Information Server,互联网信息服务)是一种Web(网页)服务组件,其中包括Web服务器、FTP服务器、NNTP服务器和SMTP服务器,分别用于网页浏览、文件传输、新闻服务和邮件发送等方面,它使得在网络(包括互联网和局域网)上发布信息成了一件很容易的事。本文将向你讲述Windows 2000高级服务器版中自带的IIS 5.0的配置和管理方法。

  • 烦人的安全基线整改(weblogic+iis)

    weblogic安全整改记录: 正则在线测试: https://www.matools.com/regex 检查是否禁用 Send Server header 参考: https://blog.csdn.net/weixin_42918771/article/details/105639985 保存激活两次。 检查Sockets最大打开数量 需要先改其它值,再改回去,为了config.xml有记录 检查开启日志 检查是否设置认证失败次数超...

  • 红色代码系列病毒的清理与修复

    前不久我们网站四台win2000服务器全部中了红色代码II号病毒,现将清理过程书写如下,望大家注意免受其害。首先如果你的机器开着IIS并没有安win2000第三个补丁的话你将非常有可能感染了红色代码病毒,这里你的机器中C:/和D:/根目录都会有一个explorer.exe文件(注:必须通过文件夹选项改成显示所有文件)这个文件是删不掉的,但可以改名,建议到www.microsoft.com/ch

  • 应对红色代码的六个实用方法

    应对红色代码的六个实用方法 [ 作者: 中国计算机报   添加时间: 2001-9-1 11:50:34 ]近期在网络界闹得最沸沸扬扬的莫过于红色代码了。这里我们对其解决方法提供如下的建议: 方法一 由于Windows2000下,IIS是系统的默认安装,但是对于绝大多数的个人用户以及服务器而言,它毫无用处,并且漏洞很多,如果没有必要,最好卸载。 方法二 微软已经提供了一个工具叫做“

  • ruby html解析器

    ruby html解析器 新的Ruby解析HTML/XML的ruby库 - NokogiriAaron Patterson和Mike Dalessio开发了一个新的Ruby解析HTML/XML的ruby库 - Nokogiri。他的速度比目前应用的最广泛的Hpric...

  • Html文档解析器(转载)

    是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse ...

  • html解析器比较

    html的解析器很多,常用的有htmlparser和jsoup,jsoup可以看做是htmlparser的简化,因为其强大的选择器使得获取元素非常的方便,有点类似Jquery中的选择器(可以直接拿),而htmlparser结构简单,功能强大,但是比较...

  • HTML解析器软件

      ...HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。示例代码: Parser parser = new Parser ("http://wha...

  • 把Mechanize的html_parser改回到Hpricot

    记得我最初开始用[url=http://nokogiri.org/]Nokogiri[/url]就是因为[url=http://mechanize.rubyforge.org/mechanize/]Mechanize[/url]用的HTML/XML解析器从[url=http://hpricot.com/]Hpricot[/url]转到了Nokogiri。...

  • Ruby on Rails 每周精选[转载]

    Rails 2.2 新特性 ...http://chinaonrails.com/topic/view/1918.html http://guides.rubyonrails.org/2_2_release_notes.html http://iceskysl.1sters.com...

  • java rails orm_rails知名应用和工具

    Mongrel的特色就是快,它比ruby自带的web server还有其他的webserver都要快。把程序部署到这个上面是会给你带来速度上的惊喜的。 另外你也可以在ruby程序中直接使用mongrel,开发属于自己专用的web server。mongrel...

  • Markaby和Hpricot:_why的程序库将何去何从?

    例如HTML解析器HPricot、标签生成器Markaby、Web架构camping以及其他非常流行的程序库。\_why在网络上完全地抹去了他的足迹,包括关掉了他的GitHub代码库,这些库的未来看起来岌岌可危。\但是,Ruby社区近期对于分布...

  • 司徒正美文章列表

    由于本人对司徒正美文章的喜欢,特此整理文章列表如下。 一个带完整的RBAC授权系统的rails应用(第一部分)(司徒正美, 3年前,12/6549) ...ruby中的类变量与实例变量(司徒正美, 3年前, 0/231) ru...

  • 病毒名称:红色代码II(CodeRedII…

    病毒名称:红色代码II(CodeRedII) 别名:CODERED.C, CODERED, HBC, W32/CodeRed.C, CodeRedIII, CodeRed III, Code Red II   病毒特点:     该病毒利用IIS的缓冲区溢出漏洞,通过TCP的80端口传播,并且该病毒变种在感染系统后会释放出黑客程序。它的技术特性如下: 一、攻击的目标系统: 1、安装Indexing

Global site tag (gtag.js) - Google Analytics