`
bd7lx
  • 浏览: 200807 次
社区版块
存档分类
最新评论

我有银子弹-HTML的parser 工具列表及示范链接

阅读更多






其实想说的是鸡汤, 美丽的rubyful soup 和Hpricot 的  HTML Parser for Ruby

http://www.crummy.com/software/BeautifulSoup/

Rubyful Soup 1.0.4 released February 1, 2006

http://www.crummy.com/software/RubyfulSoup/

http://code.whytheluckystiff.net/hpricot/

接下来将解释如何用Html的解析工具,把网站上想要的内容刮下来, 请稍候。

可以看看已经讨论过的相关内容先

http://www.railscn.com/viewtopic.php?t=473

http://www.railscn.com/viewtopic.php?t=1038

http://www.rubyrailways.com/data-extraction-for-web-20-screen-scraping-in-rubyrails/

这个WWW::Mechanize, a handy web browsing ruby object 也被用作HTML 解析用.
http://rubyforge.org/projects/mechanize/




Hpricot处理Html快,解析XML也是相当的快
http://www.rubyinside.com/parse-xml-quickly-and-easily-with-hpricot-166.html

偷上瘾了,因为太简单了, 今天最新的新闻贴:

初步鉴定结果:
技术含量 一个星  代码量 五颗   文章长度  6颗星

THE Unbelievably Easy Way to Steal Other Web Sites: Addictively Amazing!

http://web2withrubyonrails.gauldong.net/2006/11/02/the-unbelievably-easy-way-to-steal-other-web-sites-addictively-amazing/


  • 大小: 18.9 KB
  • 大小: 16.1 KB
分享到:
评论
11 楼 bd7lx 2006-11-06  

<script>a<1</script>

a<1


老的版本会忽略partial tags and Javascript 之类的_tag, 已经修正了

10 楼 aardvark 2006-11-06  
bd7lx 写道
kuky 写道
这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?


应该可以,但具体的可能要试验下,给个link 一起作实验吧

Javascript runs on browsers...
9 楼 bd7lx 2006-11-06  
kuky 写道
这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?


应该可以,但具体的可能要试验下,给个link 一起作实验吧
8 楼 bd7lx 2006-11-04  
ouspec 写道
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐


无意中看到的,对你没兴趣。


我对你有兴趣,如果你真是female,想请你录Podcast
7 楼 bd7lx 2006-11-04  
从3月到8月还是有变化的, 光守着一个帖子还是看不出“科技”的发展速度

这里的ROR新闻-不是狗咬人,没有技术含量的, 也不是人咬狗,故意猎奇耸人听闻

关注变化, 就需要了解新的状态, 讨论变化, 增加见识

cookoo早就提到了“Why最近写了个新的ruby html parser“
我仅仅是把它翻到上面显眼处



引用
2006-8-13 周日, 上午3:04    标题:  引用回复
derk 写道:
我想问下 如何取代 src中的内容 ?

代码:

<html>
<head>
</head>
<body>
<img src ="test.jpg"></img>
<EMBED src="\test.mp3" width="300" height="45" type="audio/mpeg" loop="false" autostart="true" volume="0"></EMBED>
</body>
</html>


soup.find('img')['src']


soup.img['src'] = 'test2.jpg'

Why最近写了个新的ruby html parser,速度很快,可以参考一下:
http://code.whytheluckystiff.net/hpricot/
_________________
^..^
(OO)~ Run, Piggy, Run!
6 楼 cookoo 2006-11-04  
axgle 写道
bd7lx介绍的这个比较实用,收藏。
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.

不好意思,那时候还没Hpricot,现在我就不会建议用rubyful_soup了。
5 楼 ouspec 2006-11-03  
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐


无意中看到的,对你没兴趣。
4 楼 axgle 2006-11-03  
bd7lx介绍的这个比较实用,收藏。
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.
3 楼 buaawhl 2006-11-03  
这类 Template DOM Manipulation 技术,做个简单的替换(Node, Attribute, Text 之类的)还可以。
涉及到“循环,嵌套,替换 attribute 中间的某一段,Java Script中的某一段”,就没戏了。
2 楼 bd7lx 2006-11-03  
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐
1 楼 ouspec 2006-11-03  
图片看不到

相关推荐

    前端开源库-html-react-parser

    **前端开源库-html-react-parser** 在前端开发领域,高效地处理HTML字符串并将其转换为React组件是常见的需求。`html-react-parser`就是这样一个强大的开源库,它专门用于将HTML字符串解析成React元素,使得开发者...

    Laravel开发-php-simple-html-dom-parser

    而"php-simple-html-dom-parser"是一个PHP库,专门用于处理和解析HTML文档,它提供了类似jQuery的API,使得操作HTML文档变得简单直观。这个包的Laravel版本则将这个强大的解析器集成到Laravel框架中,让开发者可以更...

    pull-parser-2.jar 工具類

    《pull-parser-2.jar工具类:Android开发中的XML与JSON解析利器》 在移动应用开发领域,尤其是在Android平台上,高效地处理XML和JSON数据是必不可少的技能。`pull-parser-2.jar`工具类库就是这样一个专门针对XML和...

    ua-parser-1.3.0.jar

    下载 ua-parser-master cd /app/ua-parser-master/java vi pom.xml &lt;version&gt;1.3.0&lt;/version&gt; 原来是&lt;version&gt;1.3.1-SNAPSHOT mvn package -DskipTests mvn install:install-file -Dfile="/app/ua-parser-master/...

    scala-parser-combinators-2.11-1.0.4-API文档-中文版.zip

    赠送jar包:scala-parser-combinators_2.11-1.0.4.jar; 赠送原API文档:scala-parser-combinators_2.11-1.0.4-javadoc.jar; 赠送源代码:scala-parser-combinators_2.11-1.0.4-sources.jar; 赠送Maven依赖信息...

    scala-parser-combinators_2.12-1.1.0-API文档-中英对照版.zip

    赠送jar包:scala-parser-combinators_2.12-1.1.0.jar; 赠送原API文档:scala-parser-combinators_2.12-1.1.0-javadoc.jar; 赠送源代码:scala-parser-combinators_2.12-1.1.0-sources.jar; 赠送Maven依赖信息...

    yum-metadata-parser-1.1.4-10.el7.x86_64.rpm

    yum-3.4.3-154.el7.centos.noarch.rpm ...yum-metadata-parser-1.1.4-10.el7.x86_64.rpm rpm-4.11.3-25.el7.x86_64.rpm yum-updateonboot-1.1.31-42.el7.noarch.rpm yum-utils-1.1.31-42.el7.noarch.rpm

    前端开源库-html-dom-parser

    HTML DOM Parser是一款重要的前端开源库,它主要用于将...总的来说,html-dom-parser是一个强大的工具,为前端开发者提供了方便的HTML到DOM的转换功能,极大地简化了HTML文档的操作和处理,是前端开发中的重要利器。

    php-simple-html-dom-parser, PHP简单的HTML DOM解析器适应 Composer 和 PSR 0.zip

    php-simple-html-dom-parser, PHP简单的HTML DOM解析器适应 Composer 和 PSR 0 php-simple-html-dom-parser版本 1.5.2针对 Composer 和 PSR-0的自适应:用PHP5 编写的HTML解析器允许你以非常简单的方式操作 HTML !...

    apk-parser

    1. `apk-parser-javadoc.jar`:这是Java的API文档,包含了apk-parser库所有类和方法的详细说明,开发者可以通过阅读这个文档了解如何调用各种API来实现特定的功能。 2. `apk-parser.jar`:这是核心库文件,包含了...

    html-dom-parser:HTML到DOM解析器

    html-dom-parser 在服务器(Node.js)和客户端(浏览器)上均可使用HTML到DOM解析器: HTMLDOMParser(string[, options])解析器将HTML字符串转换为描述DOM树JavaScript对象。例子const parse = require ( '...

    yum-metadata-parser-1.1.2-16.el6.x86_64.rpm

    yum-metadata-parser-1.1.2-16.el6.x86_64.rpm

    XML-Parser-2.4.4 官方源码

    "XML-Parser-2.4.4"是基于C语言实现的一个XML解析库,具有高度的可移植性,能够在多种操作系统和平台上运行。 XML-Parser-2.4.4源码中包含的关键知识点如下: 1. **基础数据结构**:XML解析器的核心在于构建适当的...

    Objective-C-HTML-Parser.zip

    项目包含的文件名"Objective-C-HMTL-Parser-master"表明这是项目的主分支或源代码仓库,通常在GitHub等版本控制系统中,"master"分支代表项目的主线开发。开发者可能使用Git进行版本控制,便于协同开发和代码管理。 ...

    android-plist-parser-master

    总的来说,`android-plist-parser-master`是一个实用的工具,帮助Android开发者跨越平台障碍,轻松处理来自iOS的.plist数据。通过理解和掌握这个库的使用,可以增强Android应用的兼容性和互操作性。

    yum-metadata-parser-1.1.2-4.el5.x86_64.rpm

    资源包含yum-metadata-parser-1.1.2-4.el5.x86_64.rpm、yum-metadata-parser-1.1.2-3.el5.centos.i386.rpm,两个文件,用于装yum的资源

    ua-parser-1.3.0

    ua-parser-1.3.0

    gumbo-parser-0.10.1_Parser_

    《gumbo-parser-0.10.1:HTML解析器详解及封装应用》 在Web开发领域,HTML解析器是不可或缺的一部分,它负责将HTML源代码转换为结构化的DOM(Document Object Model)树,便于程序处理和操作。gumbo-parser-0.10.1...

    前端开源库-import-sort-parser-babylon

    `import-sort-parser-babylon` 是一款专门针对JavaScript导入语句进行自动排序的工具,它利用了Babylon这个强大的JavaScript解析器来解析和理解代码结构。这个开源库的核心目标是帮助开发者遵循一致的导入顺序,从而...

    yum-metadata-parser-1.1.2-16.el6.i686.rpm

    yum-metadata-parser-1.1.2-16.el6.i686.rpm

Global site tag (gtag.js) - Google Analytics