论坛首页 编程语言技术论坛

我有银子弹-HTML的parser 工具列表及示范链接

浏览 11183 次
该帖已经被评为良好帖
作者 正文
   发表时间:2006-11-03  






其实想说的是鸡汤, 美丽的rubyful soup 和Hpricot 的  HTML Parser for Ruby

http://www.crummy.com/software/BeautifulSoup/

Rubyful Soup 1.0.4 released February 1, 2006

http://www.crummy.com/software/RubyfulSoup/

http://code.whytheluckystiff.net/hpricot/

接下来将解释如何用Html的解析工具,把网站上想要的内容刮下来, 请稍候。

可以看看已经讨论过的相关内容先

http://www.railscn.com/viewtopic.php?t=473

http://www.railscn.com/viewtopic.php?t=1038

http://www.rubyrailways.com/data-extraction-for-web-20-screen-scraping-in-rubyrails/

这个WWW::Mechanize, a handy web browsing ruby object 也被用作HTML 解析用.
http://rubyforge.org/projects/mechanize/




Hpricot处理Html快,解析XML也是相当的快
http://www.rubyinside.com/parse-xml-quickly-and-easily-with-hpricot-166.html

偷上瘾了,因为太简单了, 今天最新的新闻贴:

初步鉴定结果:
技术含量 一个星  代码量 五颗   文章长度  6颗星

THE Unbelievably Easy Way to Steal Other Web Sites: Addictively Amazing!

http://web2withrubyonrails.gauldong.net/2006/11/02/the-unbelievably-easy-way-to-steal-other-web-sites-addictively-amazing/


  • 大小: 18.9 KB
  • 大小: 16.1 KB
   发表时间:2006-11-03  
图片看不到
0 请登录后投票
   发表时间:2006-11-03  
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐
0 请登录后投票
   发表时间:2006-11-03  
这类 Template DOM Manipulation 技术,做个简单的替换(Node, Attribute, Text 之类的)还可以。
涉及到“循环,嵌套,替换 attribute 中间的某一段,Java Script中的某一段”,就没戏了。
0 请登录后投票
   发表时间:2006-11-03  
bd7lx介绍的这个比较实用,收藏。
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.
0 请登录后投票
   发表时间:2006-11-03  
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐


无意中看到的,对你没兴趣。
0 请登录后投票
   发表时间:2006-11-04  
axgle 写道
bd7lx介绍的这个比较实用,收藏。
cookoo在 http://www.railscn.com/viewtopic.php?t=473 的介绍也不错,我喜欢类似这样的有实用价值的东西.

不好意思,那时候还没Hpricot,现在我就不会建议用rubyful_soup了。
0 请登录后投票
   发表时间:2006-11-04  
从3月到8月还是有变化的, 光守着一个帖子还是看不出“科技”的发展速度

这里的ROR新闻-不是狗咬人,没有技术含量的, 也不是人咬狗,故意猎奇耸人听闻

关注变化, 就需要了解新的状态, 讨论变化, 增加见识

cookoo早就提到了“Why最近写了个新的ruby html parser“
我仅仅是把它翻到上面显眼处



引用
2006-8-13 周日, 上午3:04    标题:  引用回复
derk 写道:
我想问下 如何取代 src中的内容 ?

代码:

<html>
<head>
</head>
<body>
<img src ="test.jpg"></img>
<EMBED src="\test.mp3" width="300" height="45" type="audio/mpeg" loop="false" autostart="true" volume="0"></EMBED>
</body>
</html>


soup.find('img')['src']


soup.img['src'] = 'test2.jpg'

Why最近写了个新的ruby html parser,速度很快,可以参考一下:
http://code.whytheluckystiff.net/hpricot/
_________________
^..^
(OO)~ Run, Piggy, Run!
0 请登录后投票
   发表时间:2006-11-04  
ouspec 写道
bd7lx 写道
真得不理解你怎么象刺客一样悄悄地跟着

本来想写点东西, 给吓回去了

你的反应也太快乐


无意中看到的,对你没兴趣。


我对你有兴趣,如果你真是female,想请你录Podcast
0 请登录后投票
   发表时间:2006-11-06  
kuky 写道
这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?


应该可以,但具体的可能要试验下,给个link 一起作实验吧
0 请登录后投票
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics