`

20款开源搜索引擎系统

    博客分类:
  • java
阅读更多

一些开源搜索引擎系统介绍,包含开源Web搜索引擎和开源桌面搜索引擎。

Sphider

Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改,已经有数千网站在使用它。

RiSearch PHP

RiSearch PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch PHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。

PhpDig

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Lucene

Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

Oxyus

是一个纯java写的web搜索引擎。

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline

Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

XQEngine

XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索html文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术。

JXTA Search

JXTA Search是一个分布式的搜索系统。设计用在点对点的网络与网站上。

YaCy

YaCy基于p2p的分布式Web搜索引擎。同时也是一个Http缓存代理服务器。这个项目是构建基于p2p Web索引网络的一个新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等。

Red-Piranha

Red-Piranha是一个开源搜索系统,它能够真正”学习”你所要查找的是什么。Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等。

LIUS

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。

Apache Solr

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

Paoding

Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Carrot2

Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。

Regain

regain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜 索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法, 因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供了较好的支持。

Regain提供了两种版本:桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上,为网站及局域网环境下的文件服务器进行搜索。

分享到:
评论

相关推荐

    PHP实例开发源码-开源搜索引擎整合系统 Seeknove.zip

    PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip PHP实例开发源码—开源搜索引擎整合系统 Seeknove.zip

    c# 开源搜索引擎完整的例子

    这个"C# 开源搜索引擎"项目为学习者提供了一个实践搜索引擎开发的完整环境,涵盖了从基础的网络编程到复杂的文本处理和分布式系统设计等多个方面,对于提升C#开发者的技术能力大有裨益。通过研究这个项目,你可以...

    开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.docx

    开源的搜索引擎工具包和Web搜索引擎系统为开发者提供了构建高效、自定义化的搜索解决方案的基础。本文将介绍几个知名的开源项目,包括Lucene、LIUS、Egothor和Xapian。 1. **Lucene** Lucene是由Apache基金会维护...

    一个C#写的开源搜索引擎代码

    《C#实现的开源搜索引擎深度解析》 在IT领域,搜索引擎是信息检索的重要工具,而C#作为.NET框架下的主流编程语言,也被广泛应用于各种软件开发,包括搜索引擎的实现。本篇文章将深入探讨一个基于C#编写的开源搜索...

    迅龙中文Web搜索引擎(.NET)-开源的搜索引擎程序C#编写

    迅龙中文Web搜索引擎是一款由C#编程语言编写的开源搜索引擎程序,它为开发者提供了一种高效、易用的方式来实现中文网页的索引与检索功能。这款软件的核心在于其强大的文本处理和搜索算法,能够有效地处理中文分词和...

    国内首例开源搜索引擎分词

    《国内首例开源搜索引擎分词:云寻觅的探索与实践》 在信息化时代,搜索引擎作为获取信息的重要工具,其核心之一就是分词技术。分词是自然语言处理中的基础步骤,它将连续的文本流分割成具有独立意义的词语,从而为...

    PHP开发的开源搜索引擎整合系统

    **PHP开发的开源搜索引擎整合系统——Seeknove 1.0.15详解** Seeknove 1.0.15是一款基于PHP编程语言构建的开源搜索引擎整合平台,它的主要功能是集中展示并提供来自多个搜索引擎的搜索结果,让用户能够在一个界面下...

    基于PHP的Yioop php开源搜索引擎系统.zip

    **PHP Yioop 开源搜索引擎系统详解** PHP Yioop 是一个基于PHP语言开发的开源搜索引擎系统,旨在为用户提供高效、可定制化的网络爬虫和搜索解决方案。它不仅能够抓取网页并建立索引,还提供了社区论坛、聊天室、...

    基于PHP的Yioopphp开源搜索引擎系统源码.zip

    "基于PHP的Yioopphp开源搜索引擎系统源码.zip" 这个标题揭示了我们讨论的主题是一个使用PHP编程语言开发的开源搜索引擎系统。Yioopphp是这个系统的名称,它是一个用于创建自定义搜索引擎的平台,允许用户抓取、索引...

    火端搜索引擎源码V2.0开源版_开源_V2_火端搜索程序_搜索引擎_

    把程序上传到空间上即可运行(★★如果在子目录...之前使用1.X版本的站长需要全部重新覆盖本程序采用utf-8国际编码编写,请勿使用记事本修改代码,否则会出错。请用支持utf-8编码的编辑器修改,如notepad++、dreamweaver

    PHP实例开发源码-Yioop php开源搜索引擎系统.zip

    《PHP实例开发源码-Yioop php开源搜索引擎系统》 Yioop是一个基于PHP语言的开源搜索引擎系统,它提供了一种高效、灵活的方式来构建和管理网络数据的索引。这个项目不仅展示了PHP在大规模数据处理上的能力,还体现了...

    垂直搜索引擎完全开源版

    网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...

    基于PHP的开源搜索引擎整合系统 Seeknove.zip

    Seeknove是一个基于PHP开发的开源搜索引擎整合系统,它的设计目标是帮助用户更方便地集成和管理多种不同的搜索引擎,提供一站式的搜索解决方案。这个系统允许开发者或者网站管理员将多个搜索引擎如Google、Bing、...

    迅速搭建全文搜索平台——开源搜索引擎实战教程--代码.rar

    开源搜索引擎以其灵活性、可扩展性和成本效益,已经成为许多企业和开发者构建高效检索系统的首选方案。本实战教程将带你一步步实现这一目标,通过代码实践来加深理解。 首先,我们需要了解全文搜索引擎的基本原理。...

    基于PHP的开源搜索引擎整合系统Seeknove源码.zip

    Seeknove是一个基于PHP开发的开源搜索引擎整合系统,它的核心目标是帮助用户更方便地集成和管理多种不同的搜索引擎,提供一站式的搜索解决方案。这个系统允许开发者或者网站管理员将多个搜索引擎的结果进行聚合,...

    开源搜索引擎sphider

    开源搜索引擎Sphider是一款专为小型到中型网站设计的搜索引擎解决方案,由PHP编写,以MySQL作为后端数据库。它的核心优势在于其轻量级、高效且易于部署和定制,使得许多不懂复杂编程的网站管理员也能为其网站添加...

    开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.pdf

    《开源的搜索引擎工具包和Web搜索引擎系统》这篇文章探讨了几个主要的开源搜索引擎工具包,它们在互联网信息检索领域扮演着重要角色。以下是这些工具包的详细介绍: 1. Lucene:由Doug Cutting创建的Lucene是Apache...

    HiGo垂直搜索引擎系统开源版(基于lucence mysql asp.net) v2.2.rar

     HiGo垂直搜索引擎开源版系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence mysql asp.net, 支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊...

Global site tag (gtag.js) - Google Analytics