最近闲着没事，准备把豆瓣所有的电影数据爬下来，再用lucene测试。

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 18669 次

锁定老帖子主题：最近闲着没事，准备把豆瓣所有的电影数据爬下来，再用lucene测试。精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
iluoxuan 等级: 性别: 文章: 70 积分: 120 来自: 北京	发表时间：2012-11-01 最后修改：2012-11-01 相关推荐: movie-seeker:基于豆瓣电影数据的Lucene搜索引擎 nlp-lucene:电影搜索引擎，基于lucene的电影搜索引擎，主要数据来源为百度新闻，豆瓣电影，百度百科，新浪微博基于爬虫和lucene构建的重大新闻网 lucene如何返回所有数据使用Lucene实现全文检索的前提准备更多相关推荐 Spring Hibernate 企业应用 Struts Lucene 1：大概要测试10g数据，保存到数据库中，然后，测试lucene等。 2：关于爬豆瓣电影数据页面规则已经分析好了，打算用深度搜索吧，就jsoup解析，开几个线程同时爬 3：然后把爬下来的数据批量插入到mysql中，再mysql中到处建立索引 4：索引就一个库，做成增量更新，基于lucene4.0 不知道我这个想法怎么样，以为工作不是搞lucene的，而且近期美事情，所有想锻炼下。求各位大牛指教，声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

montya 等级: 初级会员性别: 文章: 116 积分: 40 来自: 深圳	发表时间：2012-11-01 最后修改：2012-11-01 想法还行，但是我想弱弱的拍砖 1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间起码得有15G左右。这么多的数据lucene去做索引文件，建立索引维护索引还有数据更新不麻烦？如果以后的数据量不断增长呢？可以改成solr，也是基于lucene，而且支持分布式索引。数据表也最好切分下。 2.爬虫不能的太块，你又开多线程，ip地址容易被封杀或者被验证码问候，要么你降低采集频率，要么再写一个代理ip服务器，不停的切换ip 3.你怎么考虑去重而又不影响性能？是基于nosql,还是直接打db中去判断？ 4.一定要记住，不差钱最好弄台高配的服务器，在上面部署心情特好，优越感十足。 5.我曾经YY过，哪天自己也能成为别人眼中的大牛，事实上我是正宗屌丝一枚，一直在班门弄斧朝着大牛的道路，匍匐前进。
返回顶楼	回帖地址 0 0 请登录后投票

iluoxuan 等级: 性别: 文章: 70 积分: 120 来自: 北京	发表时间：2012-11-02 montya 写道想法还行，但是我想弱弱的拍砖 1.数据量10g,按照每条数据5k,至少有2kw数据吧。再加上索引消耗的空间起码得有15G左右。这么多的数据lucene去做索引文件，建立索引维护索引还有数据更新不麻烦？如果以后的数据量不断增长呢？可以改成solr，也是基于lucene，而且支持分布式索引。数据表也最好切分下。 2.爬虫不能的太块，你又开多线程，ip地址容易被封杀或者被验证码问候，要么你降低采集频率，要么再写一个代理ip服务器，不停的切换ip 3.你怎么考虑去重而又不影响性能？是基于nosql,还是直接打db中去判断？ 4.一定要记住，不差钱最好弄台高配的服务器，在上面部署心情特好，优越感十足。 5.我曾经YY过，哪天自己也能成为别人眼中的大牛，事实上我是正宗屌丝一枚，一直在班门弄斧朝着大牛的道路，匍匐前进。从你的回答中，感觉你就是大牛啊，本来只是想把数据爬下来放本地，听你怎么说；爬虫那块就那个了，我没登陆是直接爬的，不会出现验证码，而且按电影标签爬豆瓣里没重复估计我那不会出现太多重复看来还是YY好，多谢你的建议！至少能学点，而不是无事可做
返回顶楼	回帖地址 0 0 请登录后投票

liubey 等级: 性别: 文章: 224 积分: 160 来自: 大连	发表时间：2012-11-02 我觉得豆瓣的技术水平不会让你这么频繁的去查看他的网页的
返回顶楼	回帖地址 0 0 请登录后投票

ansjsun 等级: 初级会员性别: 文章: 356 积分: 90 来自: 北京	发表时间：2012-11-02 难点是爬虫..只要数据能下来..你想怎么折腾怎么折腾
返回顶楼	回帖地址 0 0 请登录后投票

傲世凡尘等级: 性别: 文章: 91 积分: 250 来自: 北京	发表时间：2012-11-02 iluoxuan 写道 1：大概要测试10g数据，保存到数据库中，然后，测试lucene等。 2：关于爬豆瓣电影数据页面规则已经分析好了，打算用深度搜索吧，就jsoup解析，开几个线程同时爬 3：然后把爬下来的数据批量插入到mysql中，再mysql中到处建立索引 4：索引就一个库，做成增量更新，基于lucene4.0 不知道我这个想法怎么样，以为工作不是搞lucene的，而且近期美事情，所有想锻炼下。求各位大牛指教，一起探讨阿，我在做第二步呵呵
返回顶楼	回帖地址 0 0 请登录后投票

ansjsun 等级: 初级会员性别: 文章: 356 积分: 90 来自: 北京	发表时间：2012-11-02 对了楼主..你用lucene4 用我的分词吧..正好帮我c测测
返回顶楼	回帖地址 0 0 请登录后投票

xlaohe1 等级: 初级会员性别: 文章: 103 积分: 40 来自: 来处	发表时间：2012-11-02 豆瓣是Python搞的，Python搞爬虫也挺简单
返回顶楼	回帖地址 0 0 请登录后投票

iluoxuan 等级: 性别: 文章: 70 积分: 120 来自: 北京	发表时间：2012-11-02 傲世凡尘写道 iluoxuan 写道 1：大概要测试10g数据，保存到数据库中，然后，测试lucene等。 2：关于爬豆瓣电影数据页面规则已经分析好了，打算用深度搜索吧，就jsoup解析，开几个线程同时爬 3：然后把爬下来的数据批量插入到mysql中，再mysql中到处建立索引 4：索引就一个库，做成增量更新，基于lucene4.0 不知道我这个想法怎么样，以为工作不是搞lucene的，而且近期美事情，所有想锻炼下。求各位大牛指教，一起探讨阿，我在做第二步呵呵爬下很容易啊我都已经爬了一些其实不用什么爬虫我是定向爬句爬爱情标签的电影数据，首页把所有的页码 url先获取，然后在里面获取电影详情的url，先准备这样爬，已经差不多了，很奇怪的豆瓣 256后页其实没数据后面也有页面不知道他那分页怎么来的。我先暂时这样爬小部分然后把电影标签下所有的都爬你做第二步的页面规则怎么弄我已经转成成功movie对象了现在搭建mybatis+spring ，不知道豆瓣会不会封ip啊呵呵
返回顶楼	回帖地址 0 0 请登录后投票

iluoxuan 等级: 性别: 文章: 70 积分: 120 来自: 北京	发表时间：2012-11-02 ansjsun 写道对了楼主..你用lucene4 用我的分词吧..正好帮我c测测我目前用IK ，你的分词4.0里能用吗？共享下帮你测测
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: