浏览 3053 次
锁定老帖子 主题:垂直搜索引擎行业应用技术探讨
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (1)
|
|
---|---|
作者 | 正文 |
发表时间:2012-06-08
在简单过滤之后,选择研究apache nutch来进行数据爬取。
在深入了解和学习之后,发现
Nutch 实现网页爬取,通过plugin机制可以自定义相应的规则和数据处理逻辑,结合hadoop实现数据的分布式存储。
nutch可以定制,针对不同的数据源实现特定的爬取和数据分析规则。但如何实现nutch的分布式,比如多机部署?还是单机?如何提高nutch的爬取速度?
nutch爬取下来的数据可以存放在hadoop里,通过建立索引命令可以让solr来为数据进行索引。但是存在一个问题,solr建立的索引是存放在solr配置的目录里的,可是这样不就存在数据冗余存放的问题吗?这里有一篇文章 solr是如何存储索引的 http://p-x1984.iteye.com/blog/1149980
通过solr搜索后如何建立搜索结果数据和nutch爬取后存放在hadoop中的数据的关联?比如通过nutch爬取网页信息后,可以通过设置solr中schema.xml 来对content字段进行存储和索引,content存放的是网页爬取下来的内容信息。如果通过设置,将scheme中定义的所有字段都进行存储和索引,那么nutch存储的数据是不是就没有用处可以删除了呢?
对于获取到的数据,除了提供查询搜索功能外,还有很多值得挖掘的信息,那如何有效的对数据进行挖掘? mahout ?
大家对Nutch+hadoop+solr的行业应用前景如何看?
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2012-06-26
呵呵,觉得不错。
|
|
返回顶楼 | |