关于利用hadoop实现Lucene分布式 - ITeye问答

问答首页 → 移动开发技术

0 0

关于利用hadoop实现Lucene分布式15

public void reduce(IntWritable key, Iterable<Text> values,
Context context) throws IOException, InterruptedException {
IndexWriter iw = null;
Analyzer analyzer= new IKAnalyzer();
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path path = new Path("hdfs://software07:9000/tmp/index");
FileSystemDirectory fsdir= new FileSystemDirectory(fs, path, true, conf);
for (Text val : values) {
String var = val.toString();
Document doc = new Document();
iw = new IndexWriter(fsdir,analyzer,true,IndexWriter.MaxFieldLength.LIMITED);
doc.add(new Field("info", var, Field.Store.YES, Field.Index.ANALYZED));
iw.close();
}
iw.optimize();
iw.close();
//context.write(key, result);
}

这个reduce报错，
java.lang.IllegalArgumentException: Wrong FS: hdfs://software7:9000/tmp/index, expected: file:///
不知道为什么出错，难道FileSystemDirectory不能使用这类path
那如何创建索引到HDFS，那又如何从hdfs读取索引目录呢

另外hadoop contrib/index中使用了Lucene，是哪个版本的lucene啊，这个包如何使用啊
谢谢指导啊

问题补充：

nepshi 写道

据我所知，Lucene的索引一般不往HDFS上写，都是先写到本地文件系统，如果有需要，再移动到HDFS上，具体可以参考katta之类的开源实现，我觉得效率是主要因素吧。

如果搜索呢，能读取hdfs中索引文件吗，如果就使用lucene
有katta参考资料吗，比较急
谢谢了

2011年12月31日 14:07

RobustTm
117
0 0 3

1个答案按时间排序按投票排序

0 0

采纳的答案

据我所知，Lucene的索引一般不往HDFS上写，都是先写到本地文件系统，如果有需要，再移动到HDFS上，具体可以参考katta之类的开源实现，我觉得效率是主要因素吧。

2011年12月31日 16:00

nepshi
45
0 0 0

添加评论

相关推荐

hadoop+lucene几种结合形式: 1. 第一种形式：简单地将Lucene索引整合进Hadoop，实现分布式索引和搜索。 2. 第二种形式：分布式抓取数据，然后合并成单一索引，再上传到Hadoop进行搜索。 3. 第三种形式：减少合并索引的步骤，支持多索引目录联合...

一种基于Hadoop平台的分布式数据检索系统.pdf: 该系统的设计充分利用了Hadoop的分布式处理能力，结合了Lucene框架的全文索引功能和Solr的企业级检索特性，以及SparkStreaming的实时数据处理优势，形成了一个能够提供企业级智能云检索服务的高效系统。通过这样的...

lucene+hadoop_分布式搜索运行框架.pdf: ### Lucene + Hadoop 分布式搜索运行框架详解 #### 一、概述本文档旨在介绍基于Lucene和Hadoop构建的分布式搜索运行框架——Nut。该框架专门为Lucene提供了强大的分布式搜索能力，能够支持7*24小时不间断运行，...

基于Hadoop平台的分布式搜索引擎.zip: 总结，基于Hadoop的分布式搜索引擎充分利用了分布式计算的优势，实现了大规模数据下的高效搜索。"SearchEngine-master"项目为我们提供了一个实践平台，通过学习和研究，我们可以更好地理解和掌握在Hadoop上构建搜索...

Hadoop+HBase+Hive+lucene分布式搜索引擎分析系统: 在这个系统中，Hadoop提供存储基础，HBase负责实时数据存储和访问，Hive处理复杂的数据分析任务，Lucene实现全文检索，而Memcached则优化了数据访问速度。这种组合可以处理PB级别的数据，并且能够应对各种数据分析...

Hadoop分布式合集【精品】【免积分】: Hadoop是Apache Lucene下的一个子项目，它最初是从Nutch项目中分离出来专门负责分布式存储以及分布式运算的项目。简单地说，Hadoop是一个实现可靠、可扩展、分布式运算的开源软件平台，它也是Google著名的分布式文件...

elasticsearch与hadoop比较: Elasticsearch是一个基于Lucene的分布式搜索服务器，其设计目的是提供一个分布式的、可扩展的全文搜索引擎，同时也具备数据的聚合和统计分析能力。而Hadoop是一个由Apache软件基金会开发的开源框架，它允许使用简单...

基于Hadoop的分布式外观专利图像检索系统研究.pdf: 在这样的背景下，本文提出了基于Hadoop分布式计算平台的设计方案，其中包括利用LIRE（Lucene Image Retrieval）开发包来提取图像特征。LIRE是基于Lucene全文搜索引擎的扩展，专门用于图像内容检索。它能够以分布式的...

用 Hadoop 进行分布式并行编程.pdf: Hadoop 分布式并行编程框架知识点 ...* 并发编程：Hadoop 需要并发编程的方式来实现分布式并行编程，这对于传统的软件开发方式是一种挑战。 * 多核时代：Hadoop 需要适应多核时代的来临，使用多核 CPU 来提高计算性能。

如何将Lucene索引写入Hadoop？: 标题 "如何将Lucene索引写入Hadoop" 指涉的是在大数据处理场景下，如何利用Apache Lucene的全文检索功能与Apache Hadoop的分布式计算能力相结合，实现高效的数据检索。Apache Lucene是一个高性能、全文本搜索库，而...

hadoop.contrib/lucene源码: 本文将深入探讨标题为“hadoop.contrib/lucene源码”的主题，即如何在Hadoop MapReduce框架下利用Lucene来构建倒排索引。 Hadoop是Apache软件基金会开发的一个分布式计算框架，它主要由HDFS（Hadoop Distributed ...

基于Hadoop分布式系统的地质环境大数据框架探讨.pdf: 这可以借助于Lucene（全文搜索引擎）或其分布式版本Nutch来实现。数据可视化方面，Hadoop生态系统中的Hue提供了用户界面，可以通过其对数据进行图形化展示，以便于用户更好地理解数据。 6. Hadoop生态系统的扩展与...

面向Web电子产品信息分布式检索系统的设计与实现.pdf: 这个架构通过利用Hadoop的Map和Reduce方法实现分布式索引文件的存储，然后通过Lucene技术实现索引文件的访问。这样的设计可以显著提高检索效率，同时，系统可以更有效地处理海量的Web电子产品信息。 5. 细粒度检索...

基于Web的电子产品信息分布式检索系统的设计与实现.pdf: 系统设计包括了分布式索引文件的存储过程，并利用Lucene的索引查询技术来实现信息检索。在此基础上，文章提出了一种结合了粗粒度检索和细粒度检索的混合检索方法，这种检索方法可以有效减少建立系统索引的时间，提高...

开源分布式数据库Hadoop PPT: 开源分布式数据库Hadoop PPT，Hadoop 使用了POSIX的设计来实现对文件系统文件流的读取。HDFS（Hadoop FileSystem）原来是Apache Nutch搜索引擎（从Lucene发展而来）开发的一个部分，后来独立出来作为一个Apache子...

基于Web的电子产品信息分布式检索系统的设计与实现: 文章旨在从海量信息中对有用信息获取，将用户需求满足，设计了一种基于Web的电子产品信息分布式检索系统。...实验结果表明，基于Web电子产品信息应用Hadoop以及Lucene分布式检索系统，紧缩性能较好

基于lucene和nutch的开源搜索引擎资料集合: [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf 一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术...

基于Hadoop的海量视频的分布式存储与检索研究.docx: 本研究主要探讨了如何利用Hadoop平台实现海量视频数据的高效存储与检索： - **HDFS作为存储系统**：Hadoop Distributed File System（HDFS）是一种专为大数据设计的分布式文件系统。它将大量视频文件分散存储在多台...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics