0 0

关于利用hadoop实现Lucene分布式15

public void reduce(IntWritable key, Iterable<Text> values,
Context context) throws IOException, InterruptedException {
IndexWriter iw = null;
Analyzer analyzer= new IKAnalyzer();
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path path = new Path("hdfs://software07:9000/tmp/index");
FileSystemDirectory fsdir= new FileSystemDirectory(fs, path, true, conf);
for (Text val : values) {
String var = val.toString();
Document doc = new Document();
iw = new IndexWriter(fsdir,analyzer,true,IndexWriter.MaxFieldLength.LIMITED);
doc.add(new Field("info", var, Field.Store.YES, Field.Index.ANALYZED));
iw.close();
}
iw.optimize();
iw.close();
//context.write(key, result);
}

这个reduce报错,
java.lang.IllegalArgumentException: Wrong FS: hdfs://software7:9000/tmp/index, expected: file:///
不知道为什么出错,难道FileSystemDirectory不能使用这类path
那如何创建索引到HDFS,那又如何从hdfs读取索引目录呢

另外hadoop contrib/index中使用了Lucene,是哪个版本的lucene啊,这个包如何使用啊
谢谢指导啊

问题补充:
nepshi 写道
据我所知,Lucene的索引一般不往HDFS上写,都是先写到本地文件系统,如果有需要,再移动到HDFS上,具体可以参考katta之类的开源实现,我觉得效率是主要因素吧。


如果搜索呢,能读取hdfs中索引文件吗,如果就使用lucene
有katta参考资料吗,比较急
谢谢了
2011年12月31日 14:07

1个答案 按时间排序 按投票排序

0 0

采纳的答案

据我所知,Lucene的索引一般不往HDFS上写,都是先写到本地文件系统,如果有需要,再移动到HDFS上,具体可以参考katta之类的开源实现,我觉得效率是主要因素吧。

2011年12月31日 16:00

相关推荐

    hadoop+lucene几种结合形式

    1. 第一种形式:简单地将Lucene索引整合进Hadoop,实现分布式索引和搜索。 2. 第二种形式:分布式抓取数据,然后合并成单一索引,再上传到Hadoop进行搜索。 3. 第三种形式:减少合并索引的步骤,支持多索引目录联合...

    一种基于Hadoop平台的分布式数据检索系统.pdf

    该系统的设计充分利用了Hadoop的分布式处理能力,结合了Lucene框架的全文索引功能和Solr的企业级检索特性,以及SparkStreaming的实时数据处理优势,形成了一个能够提供企业级智能云检索服务的高效系统。通过这样的...

    lucene+hadoop_分布式搜索运行框架.pdf

    ### Lucene + Hadoop 分布式搜索运行框架详解 #### 一、概述 本文档旨在介绍基于Lucene和Hadoop构建的分布式搜索运行框架——Nut。该框架专门为Lucene提供了强大的分布式搜索能力,能够支持7*24小时不间断运行,...

    基于Hadoop平台的分布式搜索引擎.zip

    总结,基于Hadoop的分布式搜索引擎充分利用了分布式计算的优势,实现了大规模数据下的高效搜索。"SearchEngine-master"项目为我们提供了一个实践平台,通过学习和研究,我们可以更好地理解和掌握在Hadoop上构建搜索...

    Hadoop+HBase+Hive+lucene分布式搜索引擎分析系统

    在这个系统中,Hadoop提供存储基础,HBase负责实时数据存储和访问,Hive处理复杂的数据分析任务,Lucene实现全文检索,而Memcached则优化了数据访问速度。这种组合可以处理PB级别的数据,并且能够应对各种数据分析...

    Hadoop分布式合集【精品】【免积分】

    Hadoop是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来专门负责分布式存储以及分布式运算的项目。简单地说,Hadoop是一个实现可靠、可扩展、分布式运算的开源软件平台,它也是Google著名的分布式文件...

    elasticsearch与hadoop比较

    Elasticsearch是一个基于Lucene的分布式搜索服务器,其设计目的是提供一个分布式的、可扩展的全文搜索引擎,同时也具备数据的聚合和统计分析能力。而Hadoop是一个由Apache软件基金会开发的开源框架,它允许使用简单...

    基于Hadoop的分布式外观专利图像检索系统研究.pdf

    在这样的背景下,本文提出了基于Hadoop分布式计算平台的设计方案,其中包括利用LIRE(Lucene Image Retrieval)开发包来提取图像特征。LIRE是基于Lucene全文搜索引擎的扩展,专门用于图像内容检索。它能够以分布式的...

    用 Hadoop 进行分布式并行编程.pdf

    Hadoop 分布式并行编程框架知识点 ...* 并发编程:Hadoop 需要并发编程的方式来实现分布式并行编程,这对于传统的软件开发方式是一种挑战。 * 多核时代:Hadoop 需要适应多核时代的来临,使用多核 CPU 来提高计算性能。

    如何将Lucene索引写入Hadoop?

    标题 "如何将Lucene索引写入Hadoop" 指涉的是在大数据处理场景下,如何利用Apache Lucene的全文检索功能与Apache Hadoop的分布式计算能力相结合,实现高效的数据检索。Apache Lucene是一个高性能、全文本搜索库,而...

    hadoop.contrib/lucene源码

    本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题,即如何在Hadoop MapReduce框架下利用Lucene来构建倒排索引。 Hadoop是Apache软件基金会开发的一个分布式计算框架,它主要由HDFS(Hadoop Distributed ...

    基于Hadoop分布式系统的地质环境大数据框架探讨.pdf

    这可以借助于Lucene(全文搜索引擎)或其分布式版本Nutch来实现。数据可视化方面,Hadoop生态系统中的Hue提供了用户界面,可以通过其对数据进行图形化展示,以便于用户更好地理解数据。 6. Hadoop生态系统的扩展与...

    面向Web电子产品信息分布式检索系统的设计与实现.pdf

    这个架构通过利用Hadoop的Map和Reduce方法实现分布式索引文件的存储,然后通过Lucene技术实现索引文件的访问。这样的设计可以显著提高检索效率,同时,系统可以更有效地处理海量的Web电子产品信息。 5. 细粒度检索...

    基于Web的电子产品信息分布式检索系统的设计与实现.pdf

    系统设计包括了分布式索引文件的存储过程,并利用Lucene的索引查询技术来实现信息检索。在此基础上,文章提出了一种结合了粗粒度检索和细粒度检索的混合检索方法,这种检索方法可以有效减少建立系统索引的时间,提高...

    开源分布式数据库Hadoop PPT

    开源分布式数据库Hadoop PPT,Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取。HDFS(Hadoop FileSystem)原来是Apache Nutch搜索引擎(从Lucene发展而来)开发的一个部分,后来独立出来作为一个Apache子...

    基于Web的电子产品信息分布式检索系统的设计与实现

    文章旨在从海量信息中对有用信息获取,将用户需求满足,设计了一种基于Web的电子产品信息分布式检索系统。...实验结果表明,基于Web电子产品信息应用Hadoop以及Lucene分布式检索系统,紧缩性能较好

    基于lucene和nutch的开源搜索引擎资料集合

    [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf 一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术...

    基于Hadoop的海量视频的分布式存储与检索研究.docx

    本研究主要探讨了如何利用Hadoop平台实现海量视频数据的高效存储与检索: - **HDFS作为存储系统**:Hadoop Distributed File System(HDFS)是一种专为大数据设计的分布式文件系统。它将大量视频文件分散存储在多台...

Global site tag (gtag.js) - Google Analytics