论坛首页 编程语言技术论坛

利用hpricot抓取baidu的图片

浏览 14099 次
精华帖 (8) :: 良好帖 (0) :: 新手帖 (2) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-07-01  
http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=21&ln=2000

http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=42&ln=2000

http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=63&ln=2000

LZ可以看看这三个地址标红色的部分,分别对应着“百度图片”搜索结果的1,2,3页,也就是说URL几乎一样的,差就只是差在pn的值上,而且值是等差数列,相差21!,绿色对应着搜索的关键字~
Google的图片搜索也有同样的方法,不知道怎么实现的,希望有懂的人上来解释一下
0 请登录后投票
   发表时间:2009-07-01   最后修改:2009-07-01
不是流氓 写道
http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=21&ln=2000

http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=42&ln=2000

http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=63&ln=2000

LZ可以看看这三个地址标红色的部分,分别对应着“百度图片”搜索结<script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/themes/advanced/langs/zh.js"></script><script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/plugins/javaeye/langs/zh.js"></script>果的1,2,3页,也就是说URL几乎一样的,差就只是差在pn的值上,而且值是等差数列,相差21!,绿色对应着搜索的关键字~
Google的图片搜索也有同样的方法,不知道怎么实现的,希望有懂的人上来解释一下

抓取已经过时,open api才是王道..
require'google-rest'
include GoogleRest
client = GoogleSearch.new
client.search(:q => "ruby", :hl =>'zh-cn', :type => 'images').each{|image_url| p image_url}


http://hooopo.iteye.com/blog/417328
0 请登录后投票
   发表时间:2009-07-13  
想不到还可以这样啊,一直不知道有 Hpricot 这东东, 哈哈,学习了。
0 请登录后投票
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics