什么是垂直搜索引擎?
垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。
与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位,这个结构化数据可称为记录。然后,再将这些数据(记录信息)进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。很显然的,这个过程很像传统的数据库检索。但是,传统的数据库检索,是基于字符串匹配的,没有相关性排序。当然,传统数据检索,也有自己的优势,支持复杂的表连接操作。垂直搜索引擎在这一点上是比较弱的。可以说,垂直搜索引擎是基于现实需求下的通用搜索和数据库检索相互折中的方案。
垂直搜索引擎的一般流程:
定向抓取 ==> 网页信息抽取 ==> 二次处理和分词 ==>索引和检索 ==> 相关性排序
垂直搜索特点:
(1)垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点;
(2)垂直搜索引擎抓取的数据倾向于结构化数据和元数据:
比如:我们找工作关注的:职位信息: 软件工程师;公司名称,行业名称:软件公司,外包行业等;地点:北京,海淀;
(3)垂直搜索引擎的搜索行为是基于结构化数据的搜索:
比如:找:海淀软件工程师 的工作等。
为什么我们要开发自己的垂直搜索引擎平台?
(1)Lucene弱点:不支持分布式、速度慢、性能差
(2)垂直搜索引擎,索引的对象是结构化信息(记录),必须支持字段索引和检索,而通用的数据引擎,不支持这方面功能。
(3)自主知识产权
(4)需要支持复杂业务
垂直搜索引擎什么研发?(重点:索引和检索)
(1)业务需求分析和抽象化:
(2)整体架构设计:
数据服务平台模块:负责引擎数据的统一管理,接收带有类型标识的待索引数据和索引过程中产生的用于检索的格式化数据;
CacheServer模块:负责web前端与引擎后台之间的数据交互(接收请求、分析请求),以及缓存检索结果;
MiddleServer模块:转发检索请求,并合并各IndexSearch返回的检索结果,完成相关性排序;
IndexSearch模块: 分析检索请求 ==> 语素系列 ==> 合并各语素检索结果 ==> [其它过滤] ==>
IndexBuilder模块:根据配置,对输入数据索引,生成倒排索引数据
(3)详细设计和编码:
(4)需要具备的知识点:链表、栈、队列和优先队列、哈希表、、B+树、快速排序、堆排序、基于文件的外排序、倒排索引、多线程和互斥、socket编程(select和epoll)、系统编程(目录、文件操作和管理)等等。
分享到:
相关推荐
总结起来,垂直搜索引擎源代码提供了一套完整的解决方案,涵盖了数据获取、处理、存储和查询的全链条。它不仅展示了搜索引擎的关键技术,也体现了对大规模数据处理和高并发场景的优化,对于学习和开发类似系统的人员...
- **垂直搜索引擎定义**:垂直搜索引擎是一种专门针对某一特定领域或主题的搜索引擎,例如医疗、法律或购物等领域。它与通用搜索引擎不同之处在于,后者覆盖广泛的主题,而前者则专注于某一细分领域。 - **垂直搜索...
### 基于Lucene_Heritrix的垂直搜索引擎的研究与应用 #### 一、垂直搜索引擎的基本介绍 垂直搜索引擎是一种专注于特定领域或特定主题的信息检索工具。与通用搜索引擎相比,垂直搜索引擎更加聚焦,旨在为用户提供...
### 垂直搜索引擎设计(简略) #### 引言 在互联网日益发达的今天,信息的爆炸式增长使得人们在寻找所需信息时面临越来越多的挑战。为了更高效地满足用户的搜索需求,垂直搜索引擎应运而生。垂直搜索引擎专注于...
### 基于Heritrix与Lucene的垂直搜索引擎研究 #### 一、引言 随着互联网信息爆炸式增长,用户对于高效、精准获取信息的需求日益强烈。传统的搜索引擎虽然能够覆盖广泛的信息源,但在面对特定领域或精细需求时往往...
基于网络爬虫的垂直搜索引擎设计与实现 本文档主要介绍了基于网络爬虫的垂直搜索引擎的设计与实现。垂直搜索引擎是一种专门针对特定领域的搜索引擎,可以提供更准确和高效的搜索结果。在本文档中,我们将介绍基于...
总结来说,"Django基于电影影评的垂直搜索引擎"项目是一个结合了Web开发和信息检索技术的实践案例,它不仅展示了Django的强大功能,也揭示了垂直搜索引擎在特定领域的应用价值。无论是对于个人技能提升还是商业应用...
总结,本文深入研究了面向校园的垂直搜索引擎的各个方面,从理论到实践,从网络爬虫设计到信息检索技术,再到系统优化,全面阐述了如何构建一个高效、精准的校园信息搜索平台。这一工作对于改善校园信息获取效率,...
总结来说,基于PHP的Sou垂直搜索引擎1.0 build GBK是一个针对特定领域的高效信息检索工具,它利用PHP的灵活性和GBK编码的中文支持,实现对中文信息的有效管理和快速查找。其设计涵盖了从数据抓取、索引构建到查询...
《基于PHP的Sou垂直搜索引擎...总结,基于PHP的Sou垂直搜索引擎通过PHP的灵活性和强大的功能,结合GBK编码,实现了对特定领域的高效搜索。在实际应用中,可以根据具体需求进一步优化和完善,以提供更优质的搜索体验。
### Deep Web垂直搜索引擎设计与实现 #### 摘要概览 本文主要探讨了Deep Web垂直搜索引擎的设计与实现。随着互联网信息的爆炸性增长,大量的数据被存储在Web服务器背后的在线数据库中,这些数据通常被称为Deep Web...
总结来说,垂直搜索引擎在机票酒店直销中的作用日益显著,不仅推动了线上消费的主流化,也促使航空公司调整销售策略,加强直销渠道的建设和推广。随着互联网技术的持续发展,可以预见垂直搜索引擎将继续成为航空和...
### 基于语义的垂直搜索引擎研究:深入解析与技术要点 #### 一、引言与背景 在数字化信息爆炸的时代,搜索引擎成为了人们获取信息不可或缺的工具。然而,传统搜索引擎,如Google、百度,主要依赖关键字匹配技术,...
总结来说,网博垂直搜索引擎完全开源版是一个功能全面、高度可定制的搜索解决方案,集成了先进的搜索引擎技术,并提供了丰富的开发接口和工具,以满足商业环境中多样化的需求。通过深入研究和二次开发,用户可以打造...
总结来说,生活服务领域垂直搜索引擎的设计与实现是一个复杂的系统工程,涵盖了网络爬虫技术、信息抽取、索引构建、信息检索等多个环节,需要综合运用多种算法和技术,以提供高效、准确和用户友好的搜索体验。...