阅读更多

10顶
0踩

开源软件

转载新闻 4 个能与Lucene媲美的开源检索引擎

2012-10-11 16:17 by 资深记者 jforever 评论(5) 有16385人浏览
1.  MG4J - Managing Gigabytes for Java



MG4J可以让你通过内插编码(interpolative coding)技术,为大量的文档集合构建一个被压缩的全文本索引。与Lucene 主要区别是,它提供了cluster 功能,具有更OO的设计方式。

虽然MG4J不是一个像Lucene、Egothor和Xapian那样的信息检索库,但是相信每一位搜索工程师都应该知道它,因为它对构建Java信息检索库提供了低水平的支持。

MG4J是在一本很流行的书问世之后被命名的,这本书是由 H.Witten,Alistair Moffat和Timothy所写,名字是《管理十亿字节:压缩并且索引文档和图片》。在使用他们的分布式、可容错的网页爬虫UbiCrawler收集到大量的网页数据后,它的作者需要一个软件来解析那些收集来的数据,由于这个需求,MG4J诞生了。MG4J的库提供了优化的类来处理I/O,转化索引文件的压缩等等。

2.  Terrier - Information Retrieval Platform



Terrier是一个高度灵活,高效的开源搜索引擎,易于部署在大型的文件集合。Terrier实现非常优秀的索引和搜索功能,为开发大型检索应用程序提供了一个理想的平台。

它支持多索引策略比如:multi-pass、single-pass 和 大型MapReduce索引。

3.  Lemur - Search Engine



Lemur(狐猴)系统是CMU和UMass联合推出的一个用于自然语言模型和信息检索研究的系统。在这个系统上可以实现基于自然语言模型和传统的向量空间模型以及Okapi的ad hoc或者分布式检索,可以使用结构化查询、跨语言检索、过滤、聚类等。

Lemur可以在Windows或者Unix环境下使用,因此我们可以直接在Windows下使用Lemur。但是Lemur提供了shell script文件来演示完整的使用lemur进行检索的过程,所以在Windows下需要安装cygwin来模拟Unix环境。Lemur还提供了一个 GUI程序以及用户交互的界面的CGI,Java程序可以直接看到检索的结果,需要安装Java 虚拟机,CGI程序需要Perl的解释器。

4.  Xapian - Search Engine Library



Xapian由C++编写,但可以绑定到Perl、Python、PHP、Java、Tcl、C# 和Ruby甚至更多的语言。Xapian可以说是STL编程的典范,在这里您可以找到熟悉的引用计数型智能指针、容器和迭代器,甚至连命名也跟STL相似,相信一定能引起喜好C++和STL的你的共鸣(实际上,很少C++程序员完全不使用STL)。

由于Xapian使用的是STL和C运行时库,因此具有高度可移值性,官方说法是可以运行在Linux、Mac OS X、FreeBSD、NetBSD、OpenBSD、Solaris、HP-UX、Tru64和IRIX,甚至其它的Unix平台,在Windows上也跑得很好。当然,并不能像Java那样“一次编译,到处可以运行”,当移植到其它平台时,一般来说是需要重新编译的。
10
0
评论 共 5 条 请登录后发表评论
5 楼 qwe8520 2015-04-20 16:27
学习下,最近正准备找个搜索引擎。。。。











シャネルスーパーコピー気風はグッグッチ激安  業はまった
4 楼 飞天奔月 2012-10-18 23:31
lucene的文档最多吧

何况还有我喜欢的solr
3 楼 lot1 2012-10-14 23:54
lucene的生态环境最好,现代软件,单看一两个点已经吃不住了。
2 楼 minimu 2012-10-14 10:18
学习下,最近正准备找个搜索引擎呢,觉得Lucene不是够灵活
1 楼 wenjinglian 2012-10-13 11:49

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • XML,XSLT,AJAX三大技术打造开源多用户博客X3BLOG

    自主研发的中文分词技术,速度超过3MB/s,准确率达到90%以上,大大超过网上各种开源中文分词技术,几乎可以和中科院的ICTCLAS相媲美,结合当前最成熟的Lucene的.net版本,实现了功能强大执行快速的全文检索引擎。...

  • 开源搜索引擎研究

    本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/shupili141005/archive/2009/11/21/4842174.aspx<br />    搜索引擎并不是对互联网进行直接搜索,而是对已抓取网页索引库的搜索,索引在...

  • 开源搜索引擎简介(转载)

    搜索引擎并不是对互联网进行直接搜索,而是对已抓取网页索引库的搜索,索引在其中扮演了最为重要的角色,索引算法 的效率直接影响搜索引擎的效率,是评测搜索引擎是否高效的关键因素。网页爬行器、索引器、查询器 ...

  • 最新开源搜索引擎研究

    搜索引擎并不是对互联网进行直接搜索,而是对已... 目前,开放源代码的搜索引擎项目也有一些,主要集中在搜索引擎开发工具包与架构、Web搜索引擎、文件搜索引擎几个方面,下面就当前比较流行且相对比较成熟的几个搜索

  • Lucene In Action 中文版 [1]

    jimoxing写在前面的话:本人整理此书发表在CSDN,不做任何商业用途,完全本着为人民服务。 ... 并且注意素质。...Lucene In Action 中文版 [1] 包含: 1.目录 2.序 3.前言 4.致谢 5.本书简介 6.谁应

  • Lucene in Action(简体中文版)

    共10部分 第一部分 Lucene核心[code="java"][/code] 1. 接触Lucene ...4. 分析 5. 高极搜索技术 6. 扩展搜索 第二部分 Lucene应用 7. 分析常用文档格式 8. 工具和扩充 9. Lucene其它版...

  • Lucene in Action(中文版)

    Lucene in Action 中文版 第一部分 Lucene核心 1. 接触Lucene 2. 索引 3. 为程序添加搜索 4. 分析 5. 高极搜索技术 6. 扩展搜索 第二部分 Lucene应用 7. 分析常用文档格式 8. 工具和扩充 9. Lucene...

  • Lucene in Action 中文版

    Lucene in Action 中文版 ERIK HATCHER OTIS GOSPODNETIC zw_ren译 主要内容 第一部分 Lucene核心 1. 接触Lucene  2. 索引  3. 为程序添加搜索 ...

  • 盘点 Github 所用到的开源项目

    Elasticsearch是一个实时的、分布式的RESTful搜索引擎,基于Apache Lucene开发。具备高可靠性,支持非常多的企业级搜索用例。它对外提供一系列基于Java和HTTP的API,用于索引、检索、修改大多数配置。  官网...

  • .Net 优秀的开源框架整理

    任务调度 Quartz.NET Quartz.NET 是一个开源的作业调度框架,是OpenSymphony的Quartz API的.NET移植,它用C#写成,可用于winform和asp...Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即

  • Hadoop Ecosystem(Hadoop生态环境-130多个相关开源项目)

    Apache Hadoop项目开发用于可靠、可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。 它旨在从单个服务器扩展到数千台计算机,每台计算机都...

  • Lucene in Action中文版

    Lucene in Action中文版 第一部分 Lucene核心1. 接触Lucene 2. 索引 3. 为程序添加搜索4. 分析5. 高极搜索技术6. 扩展搜索第二部分 Lucene应用7. 分析常用文档格式8. 工具和扩充9. Lucene其它版本10. ...

  • GitHub---精彩开源项目

    在致力于开源事业的同时,Github也使用一些非常优秀的开源项目的来打造自己的平台与服务,本文总结了Github所用到各种开源项目,它们分别扮演着不同的角色。  1.Linguist  Linguist直译是语言学家的意思,...

  • Lucene in Action

    Lucene in Action中文版 第一部分 Lucene核心1. 接触Lucene 2. 索引 3. 为程序添加搜索4. 分析5. 高极搜索技术6. 扩展搜索第二部分 Lucene应用7. 分析常用文档格式8. 工具和扩充9. Lucene其它版本1

  • ES 可扩展、高可靠、使用场景等常见问题

    ElasticSearch是一款非常强大的、基于Lucene的开源搜索及分析引擎;它是一个实时的分布式搜索分析引擎,它能让你以前所未有的速度和规模,去探索你的数据。它被用作全文检索、结构化搜索、分析Wikipedia 使用 ...

  • Lucene in Action (中文)

    Lucene in Action中文版 ERIK HATCHER OTIS GOSPODNETIC zw_ren译 主要内容 第一部分 Lucene核心1. 接触Lucene 2. 索引 3. 为程序添加搜索4. 分析5. 高极搜索技术6. 扩展搜索第二部分 Lucene应用7....

  • X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1源码版

    以和中科院的ICTCLAS相媲美,结合当前最成熟的Lucene的.net版本,实现了功能强大执行快速的全文检索引擎。 兼容性 兼容市面上所有主流浏览器(包括google Chrome浏览器) 演示地址: http://blog.muchool.com 官方...

  • 数学建模拟合与插值.ppt

    数学建模拟合与插值.ppt

  • [net毕业设计]ASP.NET教育报表管理系统-权限管理模块(源代码+论文).zip

    【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。

  • mysql相关资源.txt

    mysql相关资源.txt

Global site tag (gtag.js) - Google Analytics