基于 Lucene 的8 个开源搜索引擎
摘要: Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...Apache SolrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到 ...
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...
Apache Solr Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。http://lucene.apache.org/solr/
Elastic Search ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。http://www.elasticsearch.com
Index Tank IndexTank, 一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts), categories (facets), faceted search, snippeting, custom scoring functions, suggest, and autocomplete。IndexTank的设计分离了相关性标记和文档内容,因为相关性标记的生命周期和文档本身是不一样的,特别是在用户创建的内容的情况下,例如 分享次数,Like按钮,+1按钮等等。https://github.com/linkedin/indextank-engine
Katta
Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。
Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles
http://katta.sourceforge.net/
Bobo Search
bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。
比如说搜索电脑,可以得到cpu是intel的有几条命中记录,cpu是amd的有几条命中记录。
https://github.com/javasoze/bobo
Compass
Compass是一个强大的,事务的,高性能的对象/搜索引擎映射(OSEM:object/search engine mapping)与一个Java持久层框架.Compass包括:
* 搜索引擎抽象层(使用Lucene搜索引荐), * OSEM (Object/Search Engine Mapping) 支持, * 事务管理, * 类似于Google的简单关键字查询语言, * 可扩展与模块化的框架, * 简单的API.
http://www.compass-project.org/
Summa
Summa是一种由java开发的,快速模块化和可扩展的搜索引擎. Summa 有如下特点:
-
综合搜索. Summa 能够同时访问许多不同的数据和资料来源,并以一个统一的接口公开
-
模块化设计.Summa 搜索系统由一系列独立模块组成, 这样使得它更简单容易地被维护和升级
-
可扩展性. Summa 支持分布式架构而且能够按比例的扩大或缩小以处理任何数量的数据
-
开放标准. Summa 基于现代web技术与标准, 不包含任何私有代码或原理.
-
故障容错. 如果某单一数据资源或服务出错, Summa 将会继续运行而不受出错部分限制.
http://wiki.statsbiblioteket.dk/summa/
Constellio Constellio 是一个开源的搜索解决方案,适合企业级的搜索。基于 Apache Solr 项目构建,使用 Lucene 做为搜索引擎,并提供基于 Web 的网页和文档的检索。可选择文档类型、文件夹以及文件名进行检索。http://constellio.com/
via findbestopensource
|
转自:http://www.lupaworld.com/article-215678-1.html
七个开源搜索引擎:http://www.oschina.net/news/39289/7-search-engines-for-big-data
分享到:
相关推荐
其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...
文章主要研究和应用了基于Lucene的搜索引擎,其特点是利用开源网络爬虫工具抓取互联网信息,并通过Lucene的API对特定信息进行索引和搜索。下面详细介绍相关知识点。 1. Lucene基础 Lucene是由Apache软件基金会提供...
总的来说,基于Lucene的中型搜索引擎(C#)结合了开源的全文检索库和C#语言的优势,为企业或个人开发自定义搜索引擎提供了一种高效且灵活的解决方案。通过深入理解Lucene的原理和ShootSearch的优化策略,开发者可以...
总结来说,这个基于Lucene的小型搜索引擎项目涵盖了网络爬虫、数据处理、全文搜索引擎和前端开发等多个环节。通过Heritrix爬取数据,利用Lucene建立高效索引,JSP实现交互界面,形成了一套完整的搜索引擎系统。这样...
本项目“基于Lucene的桌面搜索引擎”正是针对这一需求,利用开源全文搜索引擎库Lucene实现了一个桌面级别的搜索解决方案。 **一、Lucene简介** Lucene是Apache软件基金会的一个开放源代码项目,它是Java语言编写的...
总的来说,基于Lucene的财经类搜索引擎是一个复杂而实用的系统,它将先进的信息检索技术应用于金融领域的信息检索,提升了数据的可获取性和分析效率。对于开发者来说,理解并掌握Lucene的原理和实践,对提升自身在...
基于Lucene.Net垂直搜索引擎完全开源版.rar
《基于LUCENE的搜索引擎设计与实现》 在信息技术飞速发展的今天,搜索引擎已经成为人们获取信息的重要工具。本文将深入探讨如何使用Apache LUCENE这一强大的全文搜索引擎库,设计并实现一个高效的搜索引擎。LUCENE...
本文以“基于lucene的网络新闻搜索引擎的设计与实现”为主题,探讨了如何利用Java语言和开源的Lucene库构建一个专业的新闻搜索引擎。 Lucene是一个强大的全文检索库,它提供了文本分析、索引创建和搜索功能,是构建...
《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,...
综上所述,基于Lucene构建的Web站内搜索引擎,不仅体现了开源软件在信息检索领域的强大能力,也为各行业提供了定制化信息管理解决方案的可能性。通过深入理解Lucene的工作原理,开发者可以充分利用其丰富的功能,...
基于Lucene的简单桌面搜索引擎展示了如何利用开源库解决实际问题。通过学习和实践这个项目,开发者不仅可以掌握Lucene的基本用法,还能了解到搜索引擎背后的工作原理,为进一步深入学习全文检索和信息检索技术打下...
这个压缩包“基于lucene 的简单搜索引擎.rar”很可能是为了演示如何利用Lucene来构建一个基本的搜索引擎。在这里,我们将深入探讨Lucene的主要组件和构建过程。 ### 1. Lucene核心概念 **1.1 文档(Document)** ...
**基于Lucene的搜索引擎Regain安装指南** Regain是一个基于Apache Lucene的全文搜索引擎,它提供了高级的搜索功能,能够帮助用户快速、准确地在大量数据中查找所需信息。Lucene是Java语言实现的一个开源信息检索库...