该帖已经被评为良好帖
|
|
---|---|
作者 | 正文 |
发表时间:2006-11-03
其实想说的是鸡汤, 美丽的rubyful soup 和Hpricot 的 HTML Parser for Ruby http://www.crummy.com/software/BeautifulSoup/ Rubyful Soup 1.0.4 released February 1, 2006 http://www.crummy.com/software/RubyfulSoup/ http://code.whytheluckystiff.net/hpricot/ 接下来将解释如何用Html的解析工具,把网站上想要的内容刮下来, 请稍候。 可以看看已经讨论过的相关内容先 http://www.railscn.com/viewtopic.php?t=473 http://www.railscn.com/viewtopic.php?t=1038 http://www.rubyrailways.com/data-extraction-for-web-20-screen-scraping-in-rubyrails/ 这个WWW::Mechanize, a handy web browsing ruby object 也被用作HTML 解析用. http://rubyforge.org/projects/mechanize/ Hpricot处理Html快,解析XML也是相当的快 http://www.rubyinside.com/parse-xml-quickly-and-easily-with-hpricot-166.html 偷上瘾了,因为太简单了, 今天最新的新闻贴: 初步鉴定结果: 技术含量 一个星 代码量 五颗 文章长度 6颗星 THE Unbelievably Easy Way to Steal Other Web Sites: Addictively Amazing! http://web2withrubyonrails.gauldong.net/2006/11/02/the-unbelievably-easy-way-to-steal-other-web-sites-addictively-amazing/ 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2006-11-03
图片看不到
|
|
返回顶楼 | |
发表时间:2006-11-03
真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了 你的反应也太快乐 |
|
返回顶楼 | |
发表时间:2006-11-03
这类 Template DOM Manipulation 技术,做个简单的替换(Node, Attribute, Text 之类的)还可以。
涉及到“循环,嵌套,替换 attribute 中间的某一段,Java Script中的某一段”,就没戏了。 |
|
返回顶楼 | |
发表时间:2006-11-03
|
|
返回顶楼 | |
发表时间:2006-11-03
bd7lx 写道 真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了 你的反应也太快乐 无意中看到的,对你没兴趣。 |
|
返回顶楼 | |
发表时间:2006-11-04
axgle 写道
不好意思,那时候还没Hpricot,现在我就不会建议用rubyful_soup了。 |
|
返回顶楼 | |
发表时间:2006-11-04
从3月到8月还是有变化的, 光守着一个帖子还是看不出“科技”的发展速度
这里的ROR新闻-不是狗咬人,没有技术含量的, 也不是人咬狗,故意猎奇耸人听闻 关注变化, 就需要了解新的状态, 讨论变化, 增加见识 cookoo早就提到了“Why最近写了个新的ruby html parser“ 我仅仅是把它翻到上面显眼处 引用 2006-8-13 周日, 上午3:04 标题: 引用回复
derk 写道: 我想问下 如何取代 src中的内容 ? 代码: <html> <head> </head> <body> <img src ="test.jpg"></img> <EMBED src="\test.mp3" width="300" height="45" type="audio/mpeg" loop="false" autostart="true" volume="0"></EMBED> </body> </html> soup.find('img')['src'] soup.img['src'] = 'test2.jpg' Why最近写了个新的ruby html parser,速度很快,可以参考一下: http://code.whytheluckystiff.net/hpricot/ _________________ ^..^ (OO)~ Run, Piggy, Run! |
|
返回顶楼 | |
发表时间:2006-11-04
ouspec 写道 bd7lx 写道 真得不理解你怎么象刺客一样悄悄地跟着
本来想写点东西, 给吓回去了 你的反应也太快乐 无意中看到的,对你没兴趣。 我对你有兴趣,如果你真是female,想请你录Podcast |
|
返回顶楼 | |
发表时间:2006-11-06
kuky 写道 这个东东能解析javascript吗? 能把使用js生成的动态的内容转成静态内容刮下来吗?
应该可以,但具体的可能要试验下,给个link 一起作实验吧 |
|
返回顶楼 | |