有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。
用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢?
真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘蛛模块。
分词、索引、排序这是全文检索的基本和核心,缺一不可。全文检索至少需要具备中文分词、索引、相关性排序功能。
所以简单考查一个站内搜索引擎的真伪只需要知道:能否实现相关性排序、国际标准的搜索语法、动态摘要、飘红、支持海量数据多并快速发查询、搜索耗时极短。(当然这只是全文检索的基本内容,一个全文检索的搜索引擎的品质好坏还和相关的技术水平、各种技术的结合、产品的管理有很大关系。 评价全文检索的标准是用户体验度,今后我们会提供相关方面的内容)
常用的站内搜索技术比较:
|
基于数据库的搜索 |
基于spider抓取的站内搜索 |
全文检索者站内搜索软件系统 |
原理 |
数据库搜索 |
通过Spider抓取网页,经html解析,分词,索引实现网页式站内搜索。 |
对数据库数据进行html解析、图片缩略,分词,索引,实现站内搜索。 |
检索效率 |
非常低下 消耗大量硬件资源 |
高效 |
高效 |
检索范围 |
无法完成全文检索(可以用sql的单字索引功能最简单的完成索引功能实现最低级的全文检索),只能进行标题检索。 数据库效率太低,无法开展各种附加功能。 |
网页检索 优点:不需要做各种工作,直接即可使用 缺点: 1.有大量的不必要的信息影响搜索结果的排序和显示的效果。严重影响精确度。 2.部分页面无法抓取到。 3.用户对搜索范围和内容以及体现的结果无法精确控制 |
标题+内容 基于内容分析的排序方法。基于内容分析排序是最佳的排序方法。 标题和内容可控制,搜索结果准确到位。 内容可控,用户可对搜索的内容范围和体现的结果进行精确的控制 |
检索语法 |
无 |
支持标准的国际搜索语法。 |
支持标准的国际搜索语法。 |
动态摘要 |
无 |
摘要内容不清晰各种垃圾信息过多 |
提供动态摘要,摘要清晰精确,便于用户快速寻找到需要的信息。 |
关键词飘红 |
无 |
有 |
有 |
内容的范围 |
可控制 |
不可有效控制,动态网页抓取效果不佳,没有链接的网页无法抓取,页面出现杂乱信息影响搜索结果。对于时间控制也无法做到精准,对于栏目的归属无法做到准确。 |
可有效控制,您可以把多个字段拆分合并,可以确定那些需要,哪些不需要。所有动态网页和没有链接的网页均可有效收入。 栏目控制精准。 |
图片缩略 |
无 |
无 |
有 |
同义词 |
无 |
无 |
有 |
相关性排序 |
无 |
有 |
有 |
其他 |
低效率低质量的平台无法开展增值服务 |
二次研发成本高 |
具有持续不断的升级能力和良好的售后服务。 |
成本 |
低 |
价格高 |
以产品形式运作,多家客户分摊成本,成本相对低廉。运维成本低。 |
维护成本 |
不大 |
维护量不大。 |
程序维护无须投入,但是需要进行一定量的内容维护。 经过简单培训即可胜任。 |
分享到:
相关推荐
站内搜索引擎是网站不可或缺的一部分,它能够帮助用户快速、准确地找到所需信息。在ASP.NET框架下构建站内搜索引擎,可以充分利用.NET平台的强大性能和灵活性。这个提供的"站内搜索引擎源代码"是一个基于ASP.NET技术...
搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词高亮等...
搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词高亮等...
搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,其针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词...
FTP站内搜索引擎系统是一种专为FTP站点设计的检索工具,它允许用户在FTP服务器上快速、高效地查找所需文件。这种系统通常包含了索引、搜索和文件管理等核心功能,旨在提升FTP站点的用户体验,使其能像使用互联网搜索...
在IT行业中,站内搜索引擎是网站提供高效、准确信息检索功能的关键组件。本文将深入探讨“基于J2EE的站内搜索引擎的研究”,重点关注如何利用Java企业版(J2EE)平台构建一个强大的站内搜索解决方案。J2EE是Java开发...
搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,其针对网站使用数据库搜索性能差,体验差等问题,将搜索引擎技术应用于站内搜索;本系统具备中文分词,智能摘要,关键词...
FTP站内搜索引擎系统源码是用于在FTP服务器上构建一个高效、便捷的文件搜索功能的软件解决方案。这个系统的核心目标是帮助用户快速定位并获取FTP服务器上的特定文件或文件夹,提升FTP服务的使用效率。下面将详细阐述...
**Lucene:构建高效站内搜索引擎** Lucene是Apache软件基金会的一个开源全文检索库,它提供了高效的全文检索、分析和存储功能。作为一个Java库,Lucene可以被集成到各种Java应用中,帮助开发者轻松实现站内搜索引擎...
站内搜索引擎是网站内部优化的重要组成部分,它帮助用户在网站内部快速找到所需信息,提高用户体验,同时也有利于网站内容的组织和管理。本项目提供的是一款简单的站内搜索引擎,通过对站内的HTML页面进行分析,建立...
"蓝色空间站内搜索引擎"是一个专门设计用于在特定站点内部进行高效检索的工具,它集成了百度搜索引擎的技术,使得用户可以在自己的网站上快速找到所需的信息,同时也具备对互联网的搜索能力。这款搜索引擎不仅提升了...
搜易站内搜索引擎是面向互联网站点的站内搜索解决方案,功能强大,性能优越,可帮助大数据量和大搜索量的网站低成本解决站内搜索质量和效率问题。 应用场景: 一、单一网站的站内搜索 利用我们基于频道化模型的搜索...
搜易站内搜索引擎是面向互联网站点的站内搜索解决方案,功能强大,性能优越,可帮助大数据量和大搜索量的网站低成本解决站内搜索质量和效率问题。开发本产品是因为遇到不少网站因为搜索量大,使用普通的数据库搜索...
本文将深入探讨如何利用百度站内搜索来构建一个高效且全面的搜索引擎。 首先,我们需要理解百度站内搜索的核心原理。百度站内搜索服务,即Baidu Site Search(BSS),是百度提供的一项帮助企业或个人搭建个性化站内...
淘特站内搜索引擎是由淘特JSP搜索引擎发展而来,系统基于Lucene.Net核心,通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时,通过读取索引文件查询,避免了传统数据库查询在高并发及...
在网站开发中,站内搜索引擎是提升用户体验、方便用户快速查找信息的关键功能。本项目是一个基于PHP实现的简易站内搜索引擎,旨在帮助用户通过输入关键词快速检索到网站内的相关页面。下面将详细阐述PHP站内搜索引擎...
9om SiteSearch v1.0 是一款专为网站设计的html全文站内搜索引擎,它能够帮助用户快速、高效地在网站内部找到所需的信息。这款软件的重要性在于,它优化了用户体验,提高了网站内容的可查找性,是提升网站交互性和...
搜易站内搜索引擎 v4.8.4 更新日志 1、修复搜索结果分页缺少类型s参数的问题。 搜易站内搜索引擎简介 搜易站内搜索引擎(SearchEasy Site Search Engine)是面向互联网网站的站内搜索解决方案,其针对网站使用...
如果遇到MD5加密文件,而又不知道的密码的, 请在数据库中换上这组加密的数据吧 469e80d32c0559f8 那么密码就是admin888
### 小型站内搜索引擎开发相关知识点 #### 实验背景与目标 - **实验名称**:小型站内搜索引擎开发 - **目标概述**: - 掌握大型程序设计的基本思路与方法。 - 熟悉Visual C++ 开发环境下的程序调试技巧。 - ...