1.什么是垂直搜索:
垂直搜索引擎是
针对某一个特定行业的专业搜索引擎, 是通用搜索引擎的细分和
延伸, 是对网页库中的某类专门的信息进行一次整合, 定向分字段抽取出需要的数据进行处理后 ,再以某种形式返回给用户。
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,
通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。 垂直搜索引擎则显得更加专注、具体和深入。
2.垂直搜索引擎的原理及组成
搜索引擎的主要由搜索器、索引器、检索器组成。基本原理和主要功能组件方面,垂直搜索引擎与通用搜索引擎基本相同。两者主要的区别在于Spider爬行范围和网页信息处理深度两方面。通用搜索引擎Spider爬行的范围是面向几乎所有网页,而垂直搜索只爬行跟主题相关的网页。因此,垂直搜索引擎能够比通用搜索引擎更快速的找到相关主题的信息。
搜索器(Spider):也称网络蜘蛛、网络机器人等,是搜索引擎的灵魂。它根据特定算法负责抓取网页,从抓取到的网页里采集信息,对信息进行分词,分词根据词语的特殊属性选择分词算法,并将信息与其关联的URL保存进服务器数据库。搜索器必须保证及时的发现新网页,定时的重新采集已有网页信息更新保存数据库数据。
索引器(Indexer):根据搜索器,即网络蜘蛛采集后经过分词等处理后产生的关键字(keyword),建立从关键字到网页URL(统一资源定位器)的关系索引倒排文档,即建立索引数据库。检索器的功能是根据用户输入的查询词,在索引数据库中进行查询词与索引数据库的匹配算法,然后将查询结果按相关程度排序并输出到浏览器上。
除了考虑核心的技术外,虚拟主机采用高效的算法外,必须在用户体验上下功夫如结构化的显示搜索到的结果。比如,Google所使用的Ajax(异步JavaScript)技术,用户输入查询时能够自动提示,还有Google查询后显示的数据,界面上字体等要比Baidu细致一个档次。这些细节的原因,某种程度关系到搜索引擎在市场的占有额。
3.垂直搜索引擎的相关技术
(1)页面解析与页面显示排序
网页地址都是用URL(UniformResource Locator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对javascript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。
页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。
(2)、数据存储及分布式技术
尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。
(3)、网络蜘蛛的爬行策略
网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略。(2)深度优先搜索策略。(3)广度优先搜索策略。(4)深度-广度结合搜索策略。
(4)、中文分词技术
在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要是由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。
分词的方法很多,基本上分为两类:第一类是基于字符串的匹配:将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法:从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词。实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点。
分享到:
相关推荐
综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...
标题:“垂直搜索,可以燎原.pdf” 描述:“哈尔滨工业大学,内部资料!一个小技术型会议的ppt” 标签:“垂直搜索” 部分内容摘要:这份由哈尔滨工业大学信息检索研究室制作的PPT,详细介绍了垂直搜索的概念、...
垂直搜索是一种针对特定领域、行业或主题的搜索引擎,与通用的网页搜索引擎相比,它具有更专业、更深度的检索能力。这种类型的搜索引擎旨在为用户提供更加精确、相关度更高的搜索结果,满足用户在某一特定领域内的...
【标题】"C#垂直搜索网站代码下载"指的是一个基于C#编程语言和Asp.net框架构建的,针对特定领域或行业的垂直搜索引擎的源码项目。这种类型的搜索引擎不同于通用的Web搜索引擎,它专注于某一特定领域,如技术文档、...
垂直搜索引擎的选型;网页库级垂直搜索引擎技术(二)如何做好一个垂直搜索引擎;信息抽取的资料文档
### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...
- **垂直搜索引擎定义**:垂直搜索引擎是一种专门针对某一特定领域或主题的搜索引擎,例如医疗、法律或购物等领域。它与通用搜索引擎不同之处在于,后者覆盖广泛的主题,而前者则专注于某一细分领域。 - **垂直搜索...
垂直搜索引擎是一种针对特定领域、行业或主题的搜索引擎,与通用搜索引擎如Google或Bing不同,它们专注于提供某一专业领域的深度信息检索。这个源代码可能是实现这样一个定制化搜索系统的基石,旨在提供高效、高并发...
【奥搜垂直搜索引擎旅游版】是一款专为旅游行业设计的搜索解决方案,旨在提供高效、精准的旅游信息检索服务。在互联网信息爆炸的时代,传统的通用搜索引擎往往无法满足用户对特定领域,如旅游,深度和针对性的需求。...
垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...
《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,...
《前程无忧垂直搜索引擎项目实战》是一门深度探讨如何构建高效、针对性强的搜索引擎的实践课程。本项目主要聚焦在Java技术栈上,利用DWR(Direct Web Remoting)进行前后端交互,同时结合了Lucene和Heritrix这两款...
网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...
在“Lucene实现的数码产品垂直搜索引擎”项目中,开发者利用了Lucene的强大功能,结合其他技术如DWZ和HTMLParser,创建了一个专门针对数码产品的搜索解决方案。 首先,让我们深入理解Lucene的核心概念。Lucene是...
垂直搜索引擎是一种针对某一特定领域或行业的搜索引擎,其目的是为了提高搜索结果的相关性和精确度。与传统搜索引擎相比,垂直搜索引擎通常能提供更加精确且结构化的搜索结果。例如,酷讯的火车票搜索和搜房的房屋...