精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2012-11-01
最后修改:2012-11-01
2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬 3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引 4:索引就一个库,做成增量更新,基于lucene4.0 不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教, 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2012-11-01
最后修改:2012-11-01
想法还行,但是我想弱弱的拍砖
1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间 起码得有15G左右。这么多的数据lucene去做索引文件,建立索引维护索引还有数据更新不麻烦?如果以后的数据量不断增长呢? 可以改成solr,也是基于lucene,而且支持分布式索引。数据表也最好切分下。 2.爬虫不能的太块,你又开多线程,ip地址容易被封杀或者被验证码问候,要么你降低采集频率,要么再写一个代理ip服务器,不停的切换ip 3.你怎么考虑去重而又不影响性能?是基于nosql,还是直接打db中去判断? 4.一定要记住,不差钱最好弄台高配的服务器,在上面部署心情特好,优越感十足。 5.我曾经YY过,哪天自己也能成为别人眼中的大牛,事实上我是正宗屌丝一枚,一直在班门弄斧朝着大牛的道路,匍匐前进。 |
|
返回顶楼 | |
发表时间:2012-11-02
montya 写道 想法还行,但是我想弱弱的拍砖
1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间 起码得有15G左右。这么多的数据lucene去做索引文件,建立索引维护索引还有数据更新不麻烦?如果以后的数据量不断增长呢? 可以改成solr,也是基于lucene,而且支持分布式索引。数据表也最好切分下。 2.爬虫不能的太块,你又开多线程,ip地址容易被封杀或者被验证码问候,要么你降低采集频率,要么再写一个代理ip服务器,不停的切换ip 3.你怎么考虑去重而又不影响性能?是基于nosql,还是直接打db中去判断? 4.一定要记住,不差钱最好弄台高配的服务器,在上面部署心情特好,优越感十足。 5.我曾经YY过,哪天自己也能成为别人眼中的大牛,事实上我是正宗屌丝一枚,一直在班门弄斧朝着大牛的道路,匍匐前进。 从你的回答中,感觉你就是大牛啊,本来只是想把数据爬下来放本地,听你怎么说;爬虫那块就那个了,我没登陆 是直接爬的 ,不会出现验证码,而且按电影标签爬 豆瓣里没重复估计我那不会出现太多重复 看来 还是YY好,多谢你的建议!至少能学点,而不是无事可做 |
|
返回顶楼 | |
发表时间:2012-11-02
我觉得豆瓣的技术水平不会让你这么频繁的去查看他的网页的
|
|
返回顶楼 | |
发表时间:2012-11-02
难点是爬虫..只要数据能下来..你想怎么折腾怎么折腾
|
|
返回顶楼 | |
发表时间:2012-11-02
iluoxuan 写道 1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。
2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬 3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引 4:索引就一个库,做成增量更新,基于lucene4.0 不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教, 一起探讨阿,我在做第二步呵呵 |
|
返回顶楼 | |
发表时间:2012-11-02
对了楼主..你用lucene4 用我的分词吧..正好帮我c测测
|
|
返回顶楼 | |
发表时间:2012-11-02
豆瓣是Python搞的,Python搞爬虫也挺简单
|
|
返回顶楼 | |
发表时间:2012-11-02
傲世凡尘 写道 iluoxuan 写道 1:大概要测试10g数据,保存到数据库中,然后,测试lucene等。
2:关于爬豆瓣电影数据 页面规则已经分析好 了,打算用深度搜索吧,就jsoup解析,开几个线程同时爬 3:然后把爬下来的数据批量插入到mysql中,再mysql中到处建立索引 4:索引就一个库,做成增量更新,基于lucene4.0 不知道我这个想法怎么样,以为工作不是搞lucene的,而且近期美事情,所有想锻炼下。求各位大牛指教, 一起探讨阿,我在做第二步呵呵 爬下很容易啊 我都已经爬了一些 其实不用什么爬虫 我是定向爬 句爬爱情 标签的电影数据 , 首页 把 所有的页码 url先获取,然后 在里面获取电影详情的url,先准备这样爬,已经差不多了 ,很奇怪的豆瓣 256后 页 其实没数据 后面也有页面 不知道他那分页 怎么来的。我先暂时这样 爬小部分然后 把电影标签下所有的都爬 你做第二步的页面规则 怎么弄 我已经 转成成功movie对象了 现在搭建mybatis+spring ,不知道豆瓣会不会 封ip啊 呵呵 |
|
返回顶楼 | |
发表时间:2012-11-02
ansjsun 写道 对了楼主..你用lucene4 用我的分词吧..正好帮我c测测
我目前用IK ,你的分词4.0里能用吗?共享下 帮你测测 |
|
返回顶楼 | |