锁定老帖子 主题:利用hpricot抓取baidu的图片
精华帖 (8) :: 良好帖 (0) :: 新手帖 (2) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-07-01
http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=21&ln=2000
http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=42&ln=2000 http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=63&ln=2000 LZ可以看看这三个地址标红色的部分,分别对应着“百度图片”搜索结果的1,2,3页,也就是说URL几乎一样的,差就只是差在pn的值上,而且值是等差数列,相差21!,绿色对应着搜索的关键字~ Google的图片搜索也有同样的方法,不知道怎么实现的,希望有懂的人上来解释一下 |
|
返回顶楼 | |
发表时间:2009-07-01
最后修改:2009-07-01
不是流氓 写道 http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=21&ln=2000
http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=42&ln=2000 http://image.baidu.com/i?ct=201326592&cl=2&lm=-1&tn=baiduimage&pv=&word=img&z=0&rn=21&pn=63&ln=2000 LZ可以看看这三个地址标红色的部分,分别对应着“百度图片”搜索结<script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/themes/advanced/langs/zh.js"></script><script type="text/javascript" src="http://www.iteye.com/javascripts/tinymce/plugins/javaeye/langs/zh.js"></script>果的1,2,3页,也就是说URL几乎一样的,差就只是差在pn的值上,而且值是等差数列,相差21!,绿色对应着搜索的关键字~ Google的图片搜索也有同样的方法,不知道怎么实现的,希望有懂的人上来解释一下 抓取已经过时,open api才是王道.. require'google-rest' include GoogleRest client = GoogleSearch.new client.search(:q => "ruby", :hl =>'zh-cn', :type => 'images').each{|image_url| p image_url} http://hooopo.iteye.com/blog/417328 |
|
返回顶楼 | |
发表时间:2009-07-13
想不到还可以这样啊,一直不知道有 Hpricot 这东东, 哈哈,学习了。
|
|
返回顶楼 | |