垂直搜索引擎行业应用技术探讨

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 3178 次

锁定老帖子主题：垂直搜索引擎行业应用技术探讨精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
作者	正文
tjc 等级: 初级会员性别: 文章: 70 积分: 70 来自: 上海	发表时间：2012-06-08 相关推荐: 基于Lucene_Heritrix的垂直搜索引擎的研究与应用什么是垂直搜索引擎什么是垂直搜索引擎？ [转]垂直搜索技术探讨(3) 垂直搜索引擎 nutch 更多相关推荐 Hadoop Solr 搜索 nutch 在简单过滤之后，选择研究apache nutch来进行数据爬取。在深入了解和学习之后，发现 Nutch 实现网页爬取，通过plugin机制可以自定义相应的规则和数据处理逻辑，结合hadoop实现数据的分布式存储。 nutch可以定制，针对不同的数据源实现特定的爬取和数据分析规则。但如何实现nutch的分布式，比如多机部署？还是单机？如何提高nutch的爬取速度？ nutch爬取下来的数据可以存放在hadoop里，通过建立索引命令可以让solr来为数据进行索引。但是存在一个问题，solr建立的索引是存放在solr配置的目录里的，可是这样不就存在数据冗余存放的问题吗？这里有一篇文章 solr是如何存储索引的 http://p-x1984.iteye.com/blog/1149980 通过solr搜索后如何建立搜索结果数据和nutch爬取后存放在hadoop中的数据的关联？比如通过nutch爬取网页信息后，可以通过设置solr中schema.xml 来对content字段进行存储和索引，content存放的是网页爬取下来的内容信息。如果通过设置，将scheme中定义的所有字段都进行存储和索引，那么nutch存储的数据是不是就没有用处可以删除了呢？对于获取到的数据，除了提供查询搜索功能外，还有很多值得挖掘的信息，那如何有效的对数据进行挖掘？ mahout ？大家对Nutch+hadoop+solr的行业应用前景如何看？声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

devroller2 等级: 初级会员性别: 文章: 147 积分: 70 来自: 深圳	发表时间：2012-06-26 呵呵，觉得不错。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: