1. 开源项目
1.Lucene全文检索系统
http://lucene.apache.org和http://www.lucene.com.cn/
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene的原作者是Doug
Cutting,他是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些Internet底层架构的研究。早先发布在作者自己的,他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。2.Nutch系统
2. Nutch系统
http://www.nutch.org和http://www.nutchchina.com
Nutch是个完整的开放源代码的搜索引擎,是个完备的应用程序。内部实现以Lucence为基础实现搜索引擎应用.
利用Nutch经过简单设置就可以建立自己的内部网的搜索引擎,也可以针对互联网建立搜索引擎,还可以与数据库结合检索索引。
3.Compass
http://wwww.compassframework.org/
Compass是在Lucence上实现的开源搜索引擎架构,提供更加简洁的搜索引擎API. 增加了索引事务处理的支持,能够更方便地与数据库等食物处理应用进行整合。更新时更加简单、更加高效,无需删除原文档。资源与搜索引擎之间采用映射机制,Compass还能与Hibernate 、Spring架构进行集成
4.Larbin系统
http://larbin.sourceforge.net/
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。
latbin最初的设计也是依据设计简单但是高度可配置性的原则,因此我们可以看到,一个简单的larbin的爬虫可以每天获取500万的网页,实在是非常高效。
利用larbin,我们可以轻易的获取/确定单个网站的所有联结,甚至可以镜像一个网站;也可以用它建立url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3,或者定制larbin,可以作为搜索引擎的信息的来源。
5. Yioop! PHP 搜索引擎
http://www.seekquarry.com/
Yioop! 是一个 PHP 的搜索引擎,可用于 Web 的一般用途搜索,或者可提供URL搜索以及各种文档的索引搜索,包括:HTML, PDF, DOC, PPT, RTF, RSS, XML, SVG, PNG, JPG, BMP, GIF, 以及 sitemaps.
2、研究网站
1,Google 黑板报 http://www.google.com.hk/ggblog/googlechinablog/
2,searchenginewatch.com大站。
分享到:
相关推荐
它可以根据资源类型、大小、评分等条件进行筛选,还可以根据用户的搜索历史和喜好推荐相关资源。此外,磁力搜索引擎还提供了种子质量的查看,让我们可以更好地选择下载资源。 使用磁力搜索引擎非常简单,只需打开一...
内网资源搜索引擎是一种专门用于在内部网络环境下查找和定位文件的工具。它的核心功能是创建并维护一个关于内网中各个文件的索引库,从而提高查找效率,方便用户快速定位所需资源。以下是对该搜索引擎及其相关文件的...
### 搜索引擎技术核心知识点详解 #### 一、搜索引擎概述 搜索引擎是一种在网络上广泛使用的软件系统,它的主要功能是在互联网上搜索、发现并整理信息,并为用户提供便捷的信息查询服务。搜索引擎的工作流程大致...
除了搜索引擎,网络上还存在着众多免费学术资源网站,如Google Scholar、CNKI、以及各类开放获取数据库,它们为学者和研究人员提供了丰富的学术论文、专著、会议记录等资源。这些资源网站通常提供检索功能,用户可以...
【搜索引擎技术资源下载】 搜索引擎技术是互联网领域中的关键组成部分,它负责帮助用户在海量的网络信息中快速、准确地找到所需内容。搜索引擎的工作原理主要包括爬取、索引、排名和检索四个主要步骤。 1. **爬取*...
搜索引擎是信息时代的重要工具,它通过复杂的算法和大数据处理技术,帮助用户在海量的互联网内容中快速找到所需的信息。本文将深入探讨搜索引擎的核心原理、优化策略以及与Hadoop和云计算的关联。 一、搜索引擎的...
【标题】迅雷离线影视资源搜索引擎源代码 在IT领域,迅雷离线下载是一项深受用户喜爱的技术,它允许用户在不需完整下载文件的情况下,预处理资源,提高下载速度和效率。本项目名为“迅雷离线影视资源搜索引擎源代码...
在这个名为“SEO搜索引擎所有资源源码”的压缩包中,很可能包含了各种与SEO相关的代码示例、工具、教程和其他资源,这对于想要深入理解和实践SEO的开发者或网站管理员来说是非常有价值的。 1. **关键词研究**:SEO...
这个压缩包包含了该搜索引擎的核心组件和相关文档,为用户提供了全面了解和使用无极搜索引擎的资源。 在搜索引擎领域,无极搜索引擎v1.0可能采用了以下关键技术: 1. **爬虫技术**:搜索引擎的第一步是收集互联网...
搜索引擎是互联网上用于寻找信息、网站、文件等各类资源的重要工具。它们通过爬取、索引和排名网络上的网页,帮助用户快速、有效地找到所需内容。本篇文章将详细探讨一些知名的国外搜索引擎,包括其特点和使用场景。...
搜索功能是网盘搜索引擎的核心,PHP在这里处理用户的搜索请求,通过优化的算法快速匹配到网盘中的相关资源。这可能涉及到关键词匹配、文件大小、上传时间等多种因素的综合考虑,以提供最相关、最有价值的搜索结果。...
【标题】:“国外搜索引擎” ...综上所述,国外搜索引擎作为全球信息获取的重要工具,其技术复杂度、涵盖范围和用户体验都体现了信息技术的前沿发展,为用户提供了丰富的信息资源和高效的信息检索手段。
这个资源压缩包"SEO搜索引擎所有资源源码.rar"包含了关于SEO的各种资源,可能是代码示例、教程文档或工具,对想要提升网站搜索引擎排名的人来说非常有价值。 首先,我们来看".Net源码"这部分。.Net是微软开发的一种...
谷歌搜索引擎的核心在于其PageRank算法,该算法通过对网页之间的链接关系进行分析,判断页面的重要性,从而为用户提供最相关的搜索结果。随着时间的推移,谷歌不断改进和完善其算法,如Panda、Penguin、Hummingbird...
这款全新短剧影视云盘资源搜索引擎系统源码,是搭建影视资源搜索平台的得力助手。它拥有强大的搜索算法,能在海量云盘资源中精准定位各类短剧影视内容。从热门爆款到小众佳作,丰富的资源库涵盖多种题材,满足不同...
总的来说,《这就是搜索引擎-核心技术详解》是一本全面介绍搜索引擎工作原理和技术实现的电子书籍,它不仅对搜索引擎的关键技术进行了深入的剖析,还可能涉及到了与搜索引擎相关的网络资源分享和网络安全等方面的...
理想的元搜索引擎应该具有以下特征:包含多种搜索资源,允许用户自由选择搜索引擎;提供丰富的可选择功能,如结果数量控制、时间段选择和过滤选项;支持各种检索语法,包括逻辑运算和短语检索;提供详细的结果信息,...
"java搜索引擎大全.zip"这个压缩包包含了一系列与Java搜索引擎相关的资源,适合开发者进行学习和毕业设计。这里我们将深入探讨其中涉及的关键知识点,包括Java搜索引擎的原理、数据库的应用以及相关工具的使用。 1....
在IT行业中,搜索引擎是至关重要的工具,它们负责在网络上抓取、索引和检索信息。本项目以"C#写的搜索引擎代码"为主题,展示了如何利用C#编程语言构建一个基础的网络爬虫,即“蜘蛛程序”。C#是一种面向对象的、现代...