nutch-1.x分布式索引指定

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1375 次

锁定老帖子主题：nutch-1.x分布式索引指定精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2011-07-04 相关推荐: 编码方式不匹配导致的乱码问题中文乱码问题(编码格式utf-8) 如何解决由于编码不同引起的乱码问题关于文件格式和编码方式，乱码产生的原因？各种中文乱码解决大全更多相关推荐编程综合 1、nutch-1.x中在crawl.java中。最后有这么一句话。 indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats))); 它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。 2、 dedup.dedup(new Path[] { indexes }); fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs)); merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir); 主要是对刚才生成的indexes索引部分进行合并（MD5）。删除重复的索引。根据自己的业务可以适量的修改。 2、分布式索引在指定时也可以指定 indexes部分，也可以指定index部分，两者的区别应该知道了吧！声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: