Lucene 2.3 发布，Hadoop成为Apache顶级项目

14顶
0踩

2008-01-24 16:20 by 见习记者 rainsf 评论(11) 有10996人浏览

Hadoop lucene Apache Mapreduce

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Apache Lucene可以说是Java社区全文检索引擎的事实标准，无人不晓，Lucene社区是相当活跃的，几乎每年都有两个版本发布，21号Lucene正式发布2.3版本，官方网站虽然还没有提供下载，但镜像网站已有下载。

Lucene下载地址：http://www.eng.lsu.edu/mirrors/apache/lucene/java/

Hadoop原本由Lucene的子项目Nutch发展出来，成为Lucene的子项目，Hadoop是Google的GFS和MapReduce的另一实现，用于大规模分布式计算。最近Hadoop被提升为Apache的顶级项目，还有Yahoo一直的支持，可见Hadoop的前途相当光明。

Hadoop地址：http://hadoop.apache.org

来自: Apache

分享到：

14
顶

0
踩

评论共 11 条请登录后发表评论

11 楼 lendo.du 2008-01-29 11:35

我很期待。。。。

10 楼 amigobot 2008-01-26 18:19

期待啊， 2.2以前的merging是同步的，不能有其他的indexing，这个问题好像是解决了。

9 楼 rainsf 2008-01-25 16:59

This release has many improvements since release 2.2, including:

Significantly improved indexing performance
Segment merging in background threads
Refreshable IndexReaders
Faster StandardAnalyzer and improved Token API
TermVectorMapper to customize how term vectors are loaded
Live backups (without pausing indexing) with SnapshotDeletionPolicy
CheckIndex tool to test and recover a corrupt index
Pluggable MergePolicy and MergeScheduler
"Partial" optimize(int maxNumSegments) method
New contrib module for working with Wikipedia content

In addition Lucene 2.3.0 has many performance improvements, bug fixes, etc. See CHANGES.txt for details.

Lucene 2.3.0 includes index format changes that are not readable by older versions of Lucene. Lucene 2.3.0 can both read and update older Lucene indexes. Adding to an index with an older format will cause it to be converted to the newer format.

Binary and source distributions are available here.

Maven artifacts are available here.

8 楼 zhuxinyan0824 2008-01-25 13:24

好消息,搜索功能会变的更加强大.

7 楼 myaniu 2008-01-25 12:56

以下内容转自
http://www.infoq.com/cn/news/2008/01/lucene-23-mahout

它使用了新的in-memory模型来达到大幅的速度提升。据Ingersoll说，单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%。其他改变还包括：
改进的索引管理——以前在索引过程中，当合并内部索引文件时偶尔会出现长时间的停顿，现在已经消灭了这种现象。另外现在也更容易实现其他途径去管理索引过程。
对象池——Document、Field和Token的实例现在可在索引分析中重用，因此不但提升了分析的速度，还减少了索引过程中的内存分配次数。
重新打开IndexReader ——重新打开一个IndexReader去捕捉索引中最新的变化，这个操作的速度现在也更快了，新的reopen()方法只会加载那些变更过的索引片断，而不是重新加载完整的索引。
更简易的IndexWriter微调——setMaxBufferedDocs已被更直观的setRAMBufferSizeMB所取代。

另外，2.3的目标是只需通过文件替换就能换下2.2，完全不需要重新编译。

详见
http://www.infoq.com/cn/news/2008/01/lucene-23-mahout

6 楼 grantbb 2008-01-25 11:28

搞一个下来试试

5 楼 fangzhouxing 2008-01-25 10:51

谢谢发布此消息。

4 楼 flymonk 2008-01-25 09:26

很好，很强大。Lucene2.3的性能有比较大的提升哈。

3 楼 longhong 2008-01-24 18:35

2.3版本有什么新的特性？

2 楼 rainsf 2008-01-24 16:45

修正笔误：几年都有两个版本发布 --> 几乎每年都有两个版本发布

1 楼 rainsf 2008-01-24 16:05

好消息，好消息

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据讲课笔记2.3 初探Hadoop世界

1. 了解Hadoop的发展历史； 2. 了解Hadoop的版本情况； 3. 掌握Hadoop的生态体系

Apache Hadoop

apache组织正式开源Hadoop,并把Hadoop作为了顶级项目。 2.Hadoop的生态圈 Hadoop Core (HDFS,MR-MapReduce) Hadoop生态工具（Hive,HBase） Hadoop辅助工具（Flume,Sqoop,Oozie,Hue） 3.Hadoop...

2.3 初探Hadoop世界

1. 了解Hadoop的发展历史； 2. 了解Hadoop的版本情况； 3. 掌握Hadoop的生态体系

Hadoop生态圈（一）- Hadoop详解

HDFS基准测试、Hadoop配置文件详解、Hadoop概述、Hadoop是什么、Hadoop三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三...

全文索引-lucene，solr，nutch，hadoop之nutch与hadoop

nutch，hadoop之lucene 全文索引-lucene。solr，nutch，hadoop之solr 我在去年的时候，就想把lucene，solr。nutch和hadoop这几个东东给具体的介绍下，但因为时间的关系。我还是仅仅写了两篇文章，分别介绍了一下...

大数据技术原理与应用Hadoop篇-初始hadoop

大数据学习Hadoop版本产品版本介绍

1、hadoop3.1.4简单介绍及部署、简单验证

Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。HDFS（分布式文件系统）：解决海量数据...

Hadoop技术

Hadoop是Apache旗下的一个用java语言实现开源软件的框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说，Hadoop指Apache这款开源...

Hadoop详细解析

最早来自于google的三大论文（为什么google会需要这么一种技术）后来经过doug cutting的山寨，出现了java版本的 hdfs mapreduce 和 hbase 以上三个组件整合起来成为apache的一个顶级项目 hadoop 到了v.0.20.2 ...

Hadoop-2-Hadoop概述、安装与配置

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中 Hadoop的核心是...

Lucene基础

Lucene基础学习

Hadoop

Hadoop大数据生态系统实验教程第1章欢迎来到大数据的世界 1.1 拥抱大数据当今的社会，是一个信息大爆炸的社会，社会在高速发展，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大量的数据在...

Hadoop生态圈大数据文档

文档基于介绍基于Hadoop的大数据生态圈。介绍下图每一个组件的使用场景及使用方法，同时还对每一个组件有更深入的介绍。 ...

Hadoop分布式文件系统(一)

狭义上Hadoop指的是Apache软件基金会的一款开源软件。如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。作为大数据...

Hadoop入门

到了2008年年初，hadoop已成为Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司 [2] 。 2.3.hadoop的优势 1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 [3] 。 2.高扩展...

大数据Hadoop(一)

大数据Hadoop学习笔记(一) 大数据引言什么是大数据？体量很大的数据，起步存储当量为TB级或者日均数据增长GB级。在海量数据下，可以进行分析，挖掘，进而发现数据内在的规律，从而为企业或者国家创造价值。 ...

Hadoop系列之简介

Hadoop 是由 Apache Lucene 创始人 Doug Cutting 创建的。它起源于开源搜索引擎 Apache Nutch。Nutch 项目开始于 2002 年，是一个可以运行的网页爬取工具和搜索引擎系统，但是这个系统无法解决数十亿的搜索问题。 ...

模具状态监测行业发展趋势：预计到2030年市场规模为5.06亿美元

模具状态监测市场：6.8%的年复合增长率引领制造业智能化升级在快速发展的制造业中，模具作为生产过程中的核心部件，其状态直接影响到产品的质量和生产效率。然而，模具的损耗和故障往往难以预测，给企业带来不小的损失。如今，随着模具状态监测技术的兴起，这一切正在发生改变。这项创新技术不仅能够帮助企业提前发现模具的潜在问题，还能显著延长模具的使用寿命，提升生产效率。但你真的了解这个市场的潜力和现状吗？让我们一同揭开模具状态监测市场的神秘面纱。市场概况：根据QYR（恒州博智）的统计，2023年全球模具状态监测市场的销售额已经达到了3.2亿美元，预计到2030年，这一数字将攀升至5.06亿美元，年复合增长率高达6.8%。这一显著的增长背后，是制造业对智能化、自动化生产需求的不断提升，以及模具状态监测技术在提高生产效率、降低维护成本方面的显著优势。技术创新与趋势：模具状态监测技术主要依赖于传感器、数据分析和处理等技术手段，能够实时采集模具的温度、振动、压力等指标，并通过与预设参数的比对，及时识别模具的异常情况。随着物联网、大数据和人工智能等技术的不断发展，模具状态监测技术将更加智能化，能够提供

14顶0踩