精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-11-08
可以试试 nutch 爬虫
|
|
返回顶楼 | |
发表时间:2012-11-08
iluoxuan 写道 傲世凡尘 写道 iluoxuan 写道 1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。
2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬 3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引 4:索引就一个库,做成增量更新,基于lucene4.0 不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教, 一起探讨阿,我在做第二步呵呵 爬下很容易啊 我都已经爬了一些 其实不用什么爬虫 我是定向爬 句爬爱情 标签的电影数据 , 首页 把 所有的页码 url先获取,然后 在里面获取电影详情的url,先准备这样爬,已经差不多了 ,很奇怪的豆瓣 256后 页 其实没数据 后面也有页面 不知道他那分页 怎么来的。我先暂时这样 爬小部分然后 把电影标签下所有的都爬 你做第二步的页面规则 怎么弄 我已经 转成成功movie对象了 现在搭建mybatis+spring ,不知道豆瓣会不会 封ip啊 呵呵 好像他的分页只能给你显示一千条数据.用标签组合去定向抓应该能抓的更多 |
|
返回顶楼 | |
发表时间:2012-11-08
用正则表达式解析应该会更快.他的详情页面规则都差不多吧
|
|
返回顶楼 | |
发表时间:2012-11-29
这个你可以看看,python的http://scrapy.org/。简单快捷。
或者是Nutch,基于hadoop. 频繁爬网站的问题,涉及robots.txt协议。你自己可以研究。 |
|
返回顶楼 | |