锁定老帖子 主题:爬取豆瓣个人日记
精华帖 (14) :: 良好帖 (0) :: 新手帖 (12) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-07-13
Hooopo 写道 kaka2008 写道 Hooopo 写道 多少页的阿?你丫居然没被封。。
9页,也不多。 昨天程序写错了,被封了一会 然后用浏览器还能打开。。。这是为什么 求解释。。 伪装一下User-Agent 爬的频率高了会封你IP |
|
返回顶楼 | |
发表时间:2010-07-13
Hooopo 写道 kaka2008 写道 Hooopo 写道 多少页的阿?你丫居然没被封。。
9页,也不多。 昨天程序写错了,被封了一会 然后用浏览器还能打开。。。这是为什么 求解释。。 设置user-agent |
|
返回顶楼 | |
发表时间:2010-07-13
引用 设置ua
你们试过吗 |
|
返回顶楼 | |
发表时间:2010-07-13
Hooopo 写道 引用 设置ua
你们试过吗 有的网站是封ua的 比如土豆网,封包含"java"的 |
|
返回顶楼 | |
发表时间:2010-07-13
爬多了就403了,9页应该没啥问题。
|
|
返回顶楼 | |
发表时间:2010-07-14
设置Agent,或是延时sleep可以部分解决403 forbidden问题。
|
|
返回顶楼 | |
发表时间:2010-07-14
|
|
返回顶楼 | |
发表时间:2010-07-20
运行了你的程序,只提取了第一页的文章,求解?
|
|
返回顶楼 | |
发表时间:2010-07-20
nnnnon 写道 运行了你的程序,只提取了第一页的文章,求解?
你将链接地址发过来,我试试 |
|
返回顶楼 | |
发表时间:2010-07-21
就是用的你的默认的网址!
|
|
返回顶楼 | |