`

盘点Java技术开源搜索引擎 作者:panjun 2008-06-26

阅读更多
 【IT168技术分析】
    Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Lucene
    Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索 引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的 是使使用者可以随时应自已需要自订其功能。

Oxyus
    是一个纯java写的web搜索引擎。

BDDBot
    BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持 一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline
    Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包 括中文。

XQEngine
    XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点 类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。


MG4J
    MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术。

JXTA Search
    JXTA Search是一个分布式的搜索系统。设计用在点对点的网络与网站上。

YaCy
    YaCy基于p2p的分布式Web搜索引擎。同时也是一个Http缓存代理服务器。这个项目是构建基于p2p Web索引网络的一个新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等。

Red-Piranha
    Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么。Red-Piranha可作为你桌面系统 (Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合 作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序 (Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等。

LIUS
    LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术 如:Hibernate,JDO,Torque,TopLink进行开发时。

Aperture
    Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文 档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下:Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (。eml files)

Apache Solr
    Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

Paoding
    Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补 了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Carrot2
    Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎 (YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。
分享到:
评论

相关推荐

    tcnative-1.dll文件

    tcnative-1文件 博文链接:https://panjun.iteye.com/blog/191662

    Struts中文帮助文档

    Struts中文帮助 博文链接:https://panjun.iteye.com/blog/196113

    AltiumDesigner20装配变量Variant使用说明 .pdf

    在电子设计自动化软件领域,Altium Designer是一款专业级别的PCB设计软件,它支持从原理图设计到PCB布局和制造的整个过程。Altium Designer20作为该系列软件的一个版本,提供了强大的设计功能,包括装配变量Variant...

    基于 DirectX 的覆盖层,用于绘制内存中的值.zip

    基于 DirectX 的覆盖层,用于绘制内存中的值d2rhud与https://github.com/Sh0ckFR/Universal-Dear-ImGui-Hook类似,但稍微清理了一下并使用vcpkg进行依赖管理。Stat Display 代码可以在 plugin/sample/sample.cpp 中编辑字体加载可以在 D3D12Hook.cpp 中编辑感谢 scizzydo 提供的调整大小逻辑和dschu012提供的 D2R 基本配置。

    (完整数据)30个省A股上市环保企业和高能耗企业年末市值及其占比2008-2020年

    ## 数据指标说明 资源名称:A股上市环保企业和高能耗企业年末市值及其占比 时间范围:2008-2020年 覆盖区域:我国30个省A股上市公司 主要指标:环保企业和高能耗企业年末市值和A股年末总市值 数据来源:整理自Wind数据库

    围绕 DirectXTex 和 Texconv 的 c++,CLI 包装器 .zip

    围绕 DirectXTex 和 Texconv 的 c++/CLI 包装器。直接XTexSharpDirectXTex 和 Texconv 周围的 c++/CLI 包装器。可用作 x64 和 x86 平台的托管 nuget。安装所有稳定版本和一些预发布版本均可在 NuGet 上获得。您可以在程序包管理器控制台中使用以下命令Install-Package DirectXTexSharp包裹 NuGet 稳定版 NuGet 预发布 下载直接XTexSharp 用法using DirectXTexSharp;fixed (byte* ptr = span){ var outDir = Path.Combine( new FileInfo(ddsPath).Directory.FullName, "out"); Directory.CreateDirectory(outDir); var fileName = Path.GetFileNameWithoutExtension(ddsPath); var extension

    【路径规划】堆算法栅格地图机器人路径规划【含Matlab仿真 2816期】.zip

    CSDN Matlab武动乾坤上传的资料均有对应的仿真结果图,仿真结果图均是完整代码运行得出,完整代码亲测可用,适合小白; 1、完整的代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描博客文章底部QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

    分形教程 (DirectX 11).zip

    分形基础知识###分形教程 (DirectX 11)1 - 复数简介2——什么是分形?3 - 谢尔宾斯基垫片4 - 谢尔宾斯基地毯5 - 曼德布洛特集合

    JAVA源码SpringBoot+vue+mysql 时装购物系统+数据库+指导文档

    通过标签分类管理等方式,实现: 管理员:首页、个人中心、用户管理、商品分类管理、颜色管理、商品信息管理、商品评价管理、系统管理、订单管理。 用户:首页、个人中心、商品评价管理、我的收藏管理、订单管理。 前台首页:首页、商品信息、商品资讯、个人中心。 后台管理、购物车、客服等功能。 从而达到对时装购物系统信息的高效管理。 内含指导文档,容易上手。

    基于PyTorch实现神经网络图像风格实时迁移和迭代式非实时风格迁移源码+文档说明+模型.zip

    基于PyTorch实现神经网络图像风格实时迁移和迭代式非实时风格迁移源码+文档说明+模型 【项目介绍】 实时风格迁移 迭代式的(非实时)风格迁移 图像风格迁移是深度学习中的一项有趣应用,它结合了两幅图像的内容和风格,创造出一幅新的图像。在内容上保留了原始图像的特征,还在风格上融合了另一幅图像的艺术特质。 主要功能点 实现了基于迭代优化的非实时风格迁移 实现了基于生成网络的实时风格迁移 提供了一些基本的使用示例 技术栈 PyTorch 卷积神经网络 图像生成 使用方法 提供了一些基本的使用示例,详细参数请见源代码或使用--help 命令获取 一、非实时风格迁移: 可以将输入内容图像和风格图像,即可完成风格迁移,运行时每一个epoch完成后会将生成的图像保存至output_dir 二、实时风格迁移: 模型训练: 这里提供了两个训练好的模型 一次性处理若干个图像: 对视频进行风格迁移: 原理介绍 我们需要对一个图像的内容和风格进行量化,具体方法如下: 使用预训练的深度卷积神经网络(例如 VGG-19)作为特征提取器。在这里,我们主要使用网络中间的一些卷积层的输出,而忽略了用

    基于Python的Flask框架在线电影网站系统详细文档+资料齐全.zip

    【资源说明】 基于Python的Flask框架在线电影网站系统详细文档+资料齐全.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

    java毕设项目之基于闲置物品交易网站设计与实现(lw+PPT)(源码+说明文档+mysql).zip

    环境说明:开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7 数据库工具:Navicat 开发软件:eclipse/myeclipse/idea Maven包:Maven 浏览器:谷歌浏览器。 项目均可完美运行

    在任何原生支持 DLSS2 和 DLSS3 的 DirectX 12 游戏中,在任何兼容 DirectX 12 的 GPU 上模拟 DLSS 升频器和 DLSS-G 帧生成功能 .zip

    在任何原生支持 DLSS2 和 DLSS3 的 DirectX 12 游戏中,在任何兼容 DirectX 12 的 GPU 上模拟 DLSS 升频器和 DLSS-G 帧生成功能。DLSS 启用程序在任何原生支持 DLSS2 和 DLSS3 的 DirectX 12 游戏中,在任何兼容 DirectX 12 的 GPU 上模拟 DLSS 升频器和 DLSS-G 帧生成功能。如何如何构建安装应用程序为了构建 DLSS Enabler 的安装应用程序,您需要先安装 InnoSetup 软件(https://jrsoftware.org/isdl.php)。最佳版本是 6.2.0(不能低于这个版本,也不能高于这个版本 - 主要是因为某些 AV 会随机产生误报)。安装 InnoSetup 软件后,双击“DLSS enabler.iss”文件并在 InnoSetup Editor 中编辑其内容(例如构建版本等)。在构建新包之前,您需要从 INTEL 存储库下载最新的 libxess.dll 文件并将其放入“Dll 版本”子目录中,否则安装构建过程将因缺少文件而失败。构建

    curl的so库以及头文件

    curl的so库以及头文件

    30天开发操作系统 第 2 天

    30天开发操作系统 第 2 天

    基于 Java+Mysql 实现的旅行社机票预定系统课程设计

    【作品名称】:基于 Java+Mysql 实现的旅行社机票预定系统【课程设计】 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:旅行社把预定机票的旅客信息(姓名、性别、工作单位、身份证号码、旅行时间、旅行目的地等)输入该系统,系统为旅客安排航班,打印取票通知和帐单,旅客在收到取票通知和帐单后可交费并于飞机起飞前一天凭取票通知和交款单经系统校对无误后打印机票给旅客。但是考虑到对于机票的购买人群,除了旅行社还有很多的散客,为了服务到所有旅客,我们把原本“旅行社-旅客”关系改变为“旅客-关联旅客”关系。关联旅客的信息经过旅客设定后存储在数据库内,不用每次都重复输入;可以满足原本旅行社为大量旅客一次性订购机票的需求,还可以满足私人出行时,为家人或朋友一起订购机票的需求。对于取票的流程,除了在机场的人工服务台可以沿用原取票流程外,我们还决 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。

    使用支持 DirectX 光线追踪的 GPU 进行实时基于物理的渲染.zip

    DirectX 光线追踪球体演示使用具有 DirectX 光线追踪功能的 GPU 进行基于物理的实时渲染。 使用 NVIDIA PhysX 进行光线追踪球体.mp4 DirectX.光线追踪.球体.mp4 特征PBR 金属/粗糙度工作流程使用 NVIDIA PhysX 进行刚体模拟图形设置窗口模式窗口 | 无边框 | 全屏解决HDR垂直同步NVIDIA Reflex相机抖动水平视场光线追踪俄罗斯轮盘赌跳出率采样数/像素NVIDIA 着色器执行重新排序NVIDIA RTXDI重新搅拌重新审视细胞尺寸可视化构建示例初始采样局部光照模式统一 | Power RIS | ReGIR RIS示例BRDF 采样时间重采样偏差校正模式基本 | 成对 | 光线追踪沸腾过滤强度空间重采样偏差校正模式基本 | 成对 | 光线追踪示例NVIDIA RTXGI夏普降尺度因子场景比例粗糙度阈值哈希网格可视化后期处理NVIDIA 实时降噪器降噪器ReBLUR | ReLAX验证覆盖超级分辨率NVID

    适用于 DirectX 上的 AMD 和 Intel 卡的 Nvidia 欺骗器.zip

    d3d12-代理DirectX 的显卡欺骗库我开发了这些库来绕过供应商锁定(主要用于 Streamline),当前代理充当 NVIDIA RTX 4090。安装要使用它,只需将其放在dxgi.dll可执行文件旁边就足够了。通常代理 dll 首先检查同一文件夹中的dxgi.o.dll、、、d3d12.o.dll文件,如果找不到文件,则从系统文件夹加载它们d3d12core.o.dll。d3d11.o.dlld3d11、d3d12 和 d3d12core 项目在此用于记录/调试目的。待办事项添加对某些选项的 ini 支持官方 Discord 频道https://discord.gg/2JDHx6kcXB

    该项目的主要目标是生成和可视化使用体素构建的地形 为了进行性能和实施比较,我们使用了不同的方法和计算技术来实现 .zip

    体素地形 介绍该项目的主要目标是生成和可视化使用体素构建的地形。为了进行性能和实施比较,我们使用了不同的方法和计算技术来实现。使用的技术该项目使用的技术列表如下DirectCompute 和 CUDA 用于并行地形生成可视化过程中使用的各种 DirectX 11 着色器(顶点着色器、像素着色器、几何着色器、外壳着色器、域着色器、计算着色器)用于着色器实现的 HLSLC#语言用于程序逻辑和序列算法的实现用于 CUDA 内核实现的 C 语言地形生成整个地形生成过程采用 CPU 序列算法实现,然后使用 Microsoft DirectCompute 和 Nvidia CUDA 并行算法实现。并行版本的性能提升非常显著,可以从几十到几百倍不等。生成过程采用以下算法和特征XORWOW 算法实现随机数生成使用分数布朗运动(噪声)生成体素权重使用数学方程式生成体素权重用于几何提取的行进立方体使用前缀扫描来优化并行生成地形可视化可视化是通过 DirectX 11 实现的。为了获得一些视觉效果,我们实施了以下算法环境光遮蔽三平面映射位

    【APF三维路径规划】人工势场算法球体障碍下无人机三维路径规划【含Matlab仿真 2581期】.zip

    CSDN Matlab武动乾坤上传的资料均有对应的仿真结果图,仿真结果图均是完整代码运行得出,完整代码亲测可用,适合小白; 1、完整的代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描博客文章底部QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

Global site tag (gtag.js) - Google Analytics