论坛首页 编程语言技术论坛

爬取豆瓣个人日记

浏览 14119 次
精华帖 (14) :: 良好帖 (0) :: 新手帖 (12) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-07-13  
Hooopo 写道
kaka2008 写道
Hooopo 写道
多少页的阿?你丫居然没被封。。


9页,也不多。
昨天程序写错了,被封了一会

然后用浏览器还能打开。。。这是为什么  求解释。。


伪装一下User-Agent

爬的频率高了会封你IP
0 请登录后投票
   发表时间:2010-07-13  
Hooopo 写道
kaka2008 写道
Hooopo 写道
多少页的阿?你丫居然没被封。。


9页,也不多。
昨天程序写错了,被封了一会

然后用浏览器还能打开。。。这是为什么  求解释。。




设置user-agent
0 请登录后投票
   发表时间:2010-07-13  
引用
设置ua

你们试过吗    
0 请登录后投票
   发表时间:2010-07-13  
Hooopo 写道
引用
设置ua

你们试过吗    


有的网站是封ua的
比如土豆网,封包含"java"的
0 请登录后投票
   发表时间:2010-07-13  
爬多了就403了,9页应该没啥问题。
0 请登录后投票
   发表时间:2010-07-14  
设置Agent,或是延时sleep可以部分解决403 forbidden问题。
0 请登录后投票
   发表时间:2010-07-14  
fireflyman 写道
http://www.iteye.com/topic/247944 當年qichunren被批真相.........


太震撼了,ruby能这样

尤其google-rest
0 请登录后投票
   发表时间:2010-07-20  
运行了你的程序,只提取了第一页的文章,求解?
0 请登录后投票
   发表时间:2010-07-20  
nnnnon 写道
运行了你的程序,只提取了第一页的文章,求解?

你将链接地址发过来,我试试
0 请登录后投票
   发表时间:2010-07-21  
就是用的你的默认的网址!
0 请登录后投票
论坛首页 编程语言技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics