论坛首页 Java企业应用论坛

最近闲着没事,准备把豆瓣所有的电影数据爬下来,再用lucene测试。

浏览 18669 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2012-11-01   最后修改:2012-11-01
1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。

2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬

3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引

4:索引就一个库,做成增量更新,基于lucene4.0

不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教,

   发表时间:2012-11-01   最后修改:2012-11-01
想法还行,但是我想弱弱的拍砖

1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间 起码得有15G左右。这么多的数据lucene去做索引文件,建立索引维护索引还有数据更新不麻烦?如果以后的数据量不断增长呢?
可以改成solr,也是基于lucene,而且支持分布式索引。数据表也最好切分下。

2.爬虫不能的太块,你又开多线程,ip地址容易被封杀或者被验证码问候,要么你降低采集频率,要么再写一个代理ip服务器,不停的切换ip

3.你怎么考虑去重而又不影响性能?是基于nosql,还是直接打db中去判断?
4.一定要记住,不差钱最好弄台高配的服务器,在上面部署心情特好,优越感十足。
5.我曾经YY过,哪天自己也能成为别人眼中的大牛,事实上我是正宗屌丝一枚,一直在班门弄斧朝着大牛的道路,匍匐前进。
0 请登录后投票
   发表时间:2012-11-02  
montya 写道
想法还行,但是我想弱弱的拍砖

1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间 起码得有15G左右。这么多的数据lucene去做索引文件,建立索引维护索引还有数据更新不麻烦?如果以后的数据量不断增长呢?
可以改成solr,也是基于lucene,而且支持分布式索引。数据表也最好切分下。

2.爬虫不能的太块,你又开多线程,ip地址容易被封杀或者被验证码问候,要么你降低采集频率,要么再写一个代理ip服务器,不停的切换ip

3.你怎么考虑去重而又不影响性能?是基于nosql,还是直接打db中去判断?
4.一定要记住,不差钱最好弄台高配的服务器,在上面部署心情特好,优越感十足。
5.我曾经YY过,哪天自己也能成为别人眼中的大牛,事实上我是正宗屌丝一枚,一直在班门弄斧朝着大牛的道路,匍匐前进。

从你的回答中,感觉你就是大牛啊,本来只是想把数据爬下来放本地,听你怎么说;爬虫那块就那个了,我没登陆 是直接爬的 ,不会出现验证码,而且按电影标签爬 豆瓣里没重复估计我那不会出现太多重复
看来 还是YY好,多谢你的建议!至少能学点,而不是无事可做
0 请登录后投票
   发表时间:2012-11-02  
我觉得豆瓣的技术水平不会让你这么频繁的去查看他的网页的
0 请登录后投票
   发表时间:2012-11-02  
难点是爬虫..只要数据能下来..你想怎么折腾怎么折腾
0 请登录后投票
   发表时间:2012-11-02  
iluoxuan 写道
1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。

2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬

3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引

4:索引就一个库,做成增量更新,基于lucene4.0

不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教,


一起探讨阿,我在做第二步呵呵
0 请登录后投票
   发表时间:2012-11-02  
对了楼主..你用lucene4 用我的分词吧..正好帮我c测测
0 请登录后投票
   发表时间:2012-11-02  
豆瓣是Python搞的,Python搞爬虫也挺简单
0 请登录后投票
   发表时间:2012-11-02  
傲世凡尘 写道
iluoxuan 写道
1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。

2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬

3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引

4:索引就一个库,做成增量更新,基于lucene4.0

不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教,


一起探讨阿,我在做第二步呵呵


爬下很容易啊 我都已经爬了一些 其实不用什么爬虫 我是定向爬 句爬爱情 标签的电影数据 , 首页 把 所有的页码 url先获取,然后 在里面获取电影详情的url,先准备这样爬,已经差不多了 ,很奇怪的豆瓣 256后 页 其实没数据 后面也有页面 不知道他那分页 怎么来的。我先暂时这样 爬小部分然后 把电影标签下所有的都爬

你做第二步的页面规则 怎么弄 我已经 转成成功movie对象了 现在搭建mybatis+spring ,不知道豆瓣会不会 封ip啊 呵呵
0 请登录后投票
   发表时间:2012-11-02  
ansjsun 写道
对了楼主..你用lucene4 用我的分词吧..正好帮我c测测

我目前用IK ,你的分词4.0里能用吗?共享下 帮你测测
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics