`

Java EE search_lucene xapian

阅读更多

搜索引擎产品

http://www.bing.com

目录

搜索引擎开发工具、框架

http://open-open.com/open24332.htm

http://lucene.apache.org/java/docs/index.pdf

http://jakarta.apache.org/lucene/docs/index.html

http://lucene.apache.org/images/lucene_green_300.gif

http://lucene.apache.org/java/2_4_1/api/index.html

Lucene 2.4.1 API

x

Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索 引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的 是使使用者可以随时应自已需要自订其功能。


 Egothor 

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

更多Egothor信息

 Nutch 

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

更多Nutch信息

 Lucene 

Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索 引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的 是使使用者可以随时应自已需要自订其功能。

更多Lucene信息

 Oxyus 

是一个纯java写的web搜索引擎。

更多Oxyus信息

 BDDBot 

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

更多BDDBot信息

 Zilverline 

Zilverline 是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包 括中文。

更多Zilverline信息

 XQEngine 

XQEngine 用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于 Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

更多XQEngine信息

 MG4J 

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

更多MG4J信息

 JXTA Search 

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

更多JXTA Search信息

 YaCy 

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

更多YaCy信息

 Red-Piranha 

Red- Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统(Windows,Linux与 Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方 案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序 (Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.

更多Red-Piranha信息

 LIUS 

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:
Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术 如:Hibernate,JDO,Torque,TopLink进行开发时。

更多LIUS信息

 Aperture 

Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下:
  • Plain text
  • HTML, XHTML
  • XML
  • PDF (Portable Document Format)
  • RTF (Rich Text Format)
  • Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher
  • Microsoft Works
  • OpenOffice 1.x: Writer, Calc, Impress, Draw
  • StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw
  • OpenDocument (OpenOffice 2.x, StarOffice 8.x)
  • Corel WordPerfect, Quattro, Presentations
  • Emails (.eml files)
  • 更多Aperture信息

     Apache Solr 

    Solr 是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到 一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大 Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

    更多Apache Solr信息

     Lucene中文分词“庖丁解牛” Paoding Analysis 

    Paoding's Knives中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理 解析。

    更多Lucene中文分词“庖丁解牛” Paoding Analysis信息

     Carrot2 

    Carrot2 是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎(YahooAPI、 GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。

    更多Carrot2信息

     Regain 

    Regain 是一个基于Jakarta Lucene封装的搜索引擎。它能够索引和查询多种格式的文件(当前支持的格式包括:HTML、XML、Excel、Powerpoint、Word、 PDF和RTF)。此外它还提供一个标签库以便易于将搜索结果展示在JSP页面中。

    更多Regain信息

     Hounder 

    Hounder是一个完善的搜索系统,Hounder只会检索那些出现在互联网上的文档,并通过一个简单的网页来展示搜索结果。能够完美与其它项目相结合。它在各方面的设计都是规模级的包括:索引网页的数量,检索速度,查询并发数。它已经成功应用在多个大型搜索系统中。

    更多Hounder信息

     中文分词器 IKAnalyzer 

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初, 它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分 词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
    IKAnalyzer3.0特性:
  • 采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。
  • 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
  • 优化的词典存储,更小的内存占用。支持用户词典扩展定义
  • 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
    IKAnalyzer.jpg
  • 更多中文分词器 IKAnalyzer信息


    http://xapian.org/
    The Xapian Project

    Welcome to the Xapian project website.

    Xapian is an Open Source Search Engine Library, released under the GPL . It's written in C++ , with bindings to allow use from Perl , Python , PHP , Java , Tcl , C# and Ruby (so far!)

    Xapian is a highly adaptable toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. It supports the Probabilistic Information Retrieval model and also supports a rich set of boolean query operators.

    If you're after a packaged search engine for your website, you should take a look at Omega : an application we supply built upon Xapian. Unlike most other website search solutions, Xapian's versatility allows you to extend Omega to meet your needs as they grow.

    The latest stable version is 1.0.15 , released on 2009-08-26.

    The latest development version is 1.1.2 , released on 2009-07-23.

     

     

    end

     

    分享到:
    评论

    相关推荐

      Lucene-WEB-search-program.zip_lucene java web_lucene web_lucene

      - **分布式搜索**:当数据量庞大时,可以使用Lucene的Solr或Elasticsearch进行分布式搜索,提高性能和可扩展性。 - **缓存策略**:为了提升用户体验,可以考虑对热门查询结果进行缓存。 - **查询优化**:通过分析...

      java+lucene)1236.rar_Lucene 搜索_Luncene_lucene_lucene web

      【标题】"java+lucene)1236.rar_Lucene 搜索_Luncene_lucene_lucene web" 提供的信息表明这是一个使用Java和Lucene框架实现的搜索系统,特别是针对公交数据的搜索。Lucene是Apache软件基金会的一个开源全文检索库,...

      vb.net2.0_Lucene_test.rar_lucene_lucene vb.n_lucene.net vb

      标题中的“vb.net2.0_Lucene_test.rar_lucene_lucene vb.n_lucene.net vb”表明这是一个关于使用VB.NET 2.0版本实现Lucene搜索引擎的测试项目。Lucene是一个高性能、全文本搜索库,广泛应用于Java开发,而这里则是将...

      chinese_lucene.rar_Lucene C#_Lucene for .net_PanGu4Lucene_lucene

      《深入理解Lucene C#与.NET环境下的应用实践》 Lucene是一款强大的全文搜索引擎库,最初由Apache软件基金会开发,现已成为Apache Lucene项目的一部分。它提供了高效的索引和搜索功能,广泛应用于各类数据检索系统。...

      JAVA_Lucene_in_Action教程完整版

      ### JAVA_Lucene_in_Action教程知识点概述 #### 一、Lucene简介与背景 - **Lucene的起源**:Lucene最初作为一个私有项目由Doug Cutting创建于1997年末,目的是为了学习Java并尝试创建搜索软件。由于缺乏销售经验,...

      JAVA_Lucene_in_Action教程完整版.doc

      JAVA_Lucene_in_Action教程完整版.doc

      (精美)JAVA_Lucene_in_Action教程完整版.doc

      (精美)JAVA_Lucene_in_Action教程完整版.doc

      (精美)JAVA_Lucene_in_Action教程完整版22204.doc

      (精美)JAVA_Lucene_in_Action教程完整版22204.doc

      Lucene全文搜索_LuceneJava全文搜索_

      "DocSearch"可能是一个示例程序或库,展示了如何在Java项目中实际集成和使用Lucene进行文档搜索。 总之,Lucene作为Java全文搜索的基石,提供了强大的功能和灵活性,可以帮助开发者构建高效、精准的搜索功能,无论...

      LuceneUtils_lucenejava_全文检索_lucene_

      《深入理解LuceneJava全文检索框架》 在当今大数据时代,高效、精准的全文检索技术成为了信息检索领域的重要工具。Lucene,作为Apache软件基金会的一个顶级项目,是Java语言开发的全文检索库,提供了强大的文本分析...

      java_lucene_bus.rar_Java bus_javabus.com

      标题中的“java_lucene_bus.rar”表明这是一个使用Java编程语言,并结合了Lucene库来实现的公交搜索系统。Lucene是Apache软件基金会的开源全文搜索引擎库,它提供了文本分析、索引创建、搜索功能,是Java开发人员...

      lucenevideao(eddy).rar_Lucene.net a_eddy_lucene_lucene web_luce

      这个名为“lucenevideao(eddy).rar_Lucene.net a_eddy_lucene_lucene web_luce”的资源,包含了一份由Eddy精心制作的Lucene.NET视频教程,以及相关的学习材料,是深入理解和应用Lucene.NET的好帮手。 首先,视频...

      JAVA-EE-PROJECT-.rar_JAVA EE_java EE个人_java EE项目

      **Java EE简介** Java EE(Enterprise Edition),原名J2EE,是Java平台的一个版本,专为构建企业级应用程序而设计。它提供了一个基于组件、模块化的开发框架,支持分布式计算环境,允许开发者创建可扩展且高度可靠...

      java_lucene_in_action教程完整版.rar

      《Java Lucene in Action》教程完整版是一个针对Java开发者深入学习Lucene的宝贵资源。Lucene,由Apache软件基金会开发,是一款高性能、全文本搜索库,广泛应用于构建自定义搜索引擎和信息检索系统。这个教程旨在...

      ansj_lucene6_plug-3.7.3

      jar资源

      DMS.rar_Search Engine_decompile vc9 dll_full_lucene_text search

      标题"DMS.rar_Search Engine_decompile vc9 dll_full_lucene_text search"揭示了这个压缩包包含了一个关于使用Lucene全文搜索引擎的教程,同时涉及到C#和ASP.NET开发,并且可能涉及了反编译VC9(Visual Studio 2008...

      lucene-core-3.0.0.rar_lucene_lucene-core3

      《深入剖析Lucene 3.0.0:Java搜索引擎的核心技术》 在Java开发领域,Lucene是一个不可或缺的全文搜索引擎库,它为开发者提供了强大的文本分析、索引和搜索功能。这里我们关注的是Lucene 3.0.0版本,它是Lucene历史...

      Lucene-article.rar_Article lucene_lucene

      标题"Lucene-article.rar_Article lucene_lucene"指出这是一个关于Lucene的资源包,可能是包含文章或者示例代码的压缩文件,重点在于Lucene的使用,适合初学者学习和交流。 描述中提到的"LUCENE的一段全文检索代码...

      mankouya.rar_lucene_内容发布系统_内容管理 java_动态网站_管理网站

      标题中的“mankouya.rar_lucene_内容发布系统_内容管理_java_动态网站_管理网站”揭示了这个压缩包包含的项目是一个基于Java开发的动态网站内容管理系统,使用了Lucene技术。Lucene是一个高性能、全文本搜索库,常...

    Global site tag (gtag.js) - Google Analytics