浏览 1347 次
锁定老帖子 主题:nutch-1.x分布式索引指定
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2011-07-04
1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats))); 它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。 2、 dedup.dedup(new Path[] { indexes }); 主要是对刚才生成的indexes索引部分进行合并(MD5)。删除重复的索引。根据自己的业务可以适量的修改。 2、分布式索引在指定时也可以指定 indexes部分,也可以指定index部分,两者的区别应该知道了吧! 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |