`
huangfoxAgain
  • 浏览: 37630 次
  • 性别: Icon_minigender_1
  • 来自: 常州
社区版块
存档分类
最新评论
阅读更多
垂直搜索引擎概述

一、 综合搜索引擎和垂直搜索引擎
综合搜索引擎以百度、谷歌的全文检索为典型代表。但是随着人类信息化的进度不断加快,越来越多的信息选择网络作为传播的媒介,这类综合搜索引擎在海量数据下,目标结果中有价值的数据并不多,即“搜索噪音”较大,影响用户体验。
垂直搜索引擎是一种专业的搜索引擎,这里的“专业”是指针对某一个行业或者某一主题。他是综合搜索引擎的细分和延伸,他根据具体的行业或主题特点对互联网上海量信息进行整合,提供用户搜索。垂直搜索引擎的“针对性高”是其最大的优势。目前垂直搜索引擎的应用领域也很多,例如:购物搜索、专利搜索、饮食搜索、房产搜索、人才搜索等。
综上所述,综合搜索引擎和垂直搜索引擎面对不同的用户群体(大众用户和专业用户)各有优劣,因此需要辩证看待,取长补短。


二、 垂直搜索引擎基本结构

图1——垂直搜索引擎基本结构图

主题爬虫
网络爬虫是一个能够自动从互联网上抓取网页的程序,是搜索引擎的核心部分。
一般情况下,通用网络爬虫从一个或若干个种子网页开始在互联网上爬行,当网络爬虫从互联网上下载一个网页时,它会提取出当前网页的URL并 放入待爬行队列中,如此不断地反复操作直到满足一定的停止条件为止。通用网络爬虫一般采用的搜索策略是深度优先或者广度优先搜索策略。与通用网络爬虫不同 的是,主题爬虫并不试图抓取互联网上尽可能多的网页,而是试图尽可能多地抓取与主题相关网页。因此主题爬虫与通用网络爬虫主要存在两方面的区别,首先是主 题爬虫需要判断当前所抓取的网页是否与预先设定的主题相关,其次是主题爬虫往往不是采用深度优先或广度优先策略来抓取网页,而是使用了按照相关度的大小来 抓取网页的最佳优先策略。
不同主题爬虫的主要区别在于如何计算当期网页的主题相关度、如何预测待抓取URL与主题的相关度以及如何计算待抓取URL的优先级。当前国内外学者已针对这几方面提出了许多不同的主题爬虫设计方案,大致分为以下几种类型:
  • 基于关键词的主题爬虫
  • 基于概念分析的主题爬虫
  • 基于分类器引导的主题爬虫
  • 基于连接分析的主题爬虫
  • 基于隧道技术的主题爬虫
  • 基于Deep Web的主题爬虫


文本分析(网页信息抽取)
网页信息抽取模块将网页上非结构化的数据抽取成特定的结构化的数据。

索引模块
垂直搜索引擎根据特定行业或主题的专业知识进行加工处理(去重、分类等),然后简历索引后存储到索引数据库。

检索模块
检索模块提供特定的检索语法,用户通过编写检索式获得目标结果,并加工处理(分页、排序、高亮等)呈现给用户。

三、 综合搜索引擎和垂直搜索引擎的结合设想
综合搜索引擎和垂直搜索引擎最大的区别即关注的信息范围不同,综合搜索引擎关注互联网上尽可能多的信息,而垂直搜索引擎关注特定行业和主题的信息。
假设互联网上所有的信息能够根据某一标准分类体系进行分类(可想而知这个分类体系是多么庞大与复杂),又假设综合搜索引擎对其囊括的所有信息按照这一标准分类体系进行分类检索,那么综合搜索引擎就等于N个垂直搜索引擎的综合体,并且提供综合(面向大众用户)和垂直(面向专业用户)搜索业务。
在以上假设中面临的难题。
第一难题——针对互联网上海量的信息怎么制定一个合理的标准分类体系?
第二难题——即使存在一个这样的分类体系,怎么对海量的信息进行分类?
第三难题——怎么设计良好的用户体验?让大众用户获得综合信息,让专业用户获得专业信息,而这些操作都很简单、明了。






分享到:
评论

相关推荐

    垂直搜索引擎研究

    #### 二、垂直搜索引擎概述 垂直搜索引擎是一种专注于特定领域或特定类型信息的专业化搜索引擎。与通用搜索引擎相比,垂直搜索引擎具有更高的准确性和针对性,能够更好地满足用户的个性化需求。它通常包含以下三个...

    heritrix与Lucene的垂直搜索引擎研究

    垂直搜索引擎概述 垂直搜索引擎是一种针对某一特定领域或行业的搜索引擎,其目的是为了提高搜索结果的相关性和精确度。与传统搜索引擎相比,垂直搜索引擎通常能提供更加精确且结构化的搜索结果。例如,酷讯的火车...

    垂直搜索引擎发展方向.pdf

    【垂直搜索引擎概述】 垂直搜索引擎是针对特定领域、行业或主题的专业搜索引擎,它们专注于某一类信息,如房产、求职、学术研究等,为用户提供更精确、更专业的搜索结果。相较于通用搜索引擎,垂直搜索引擎能够更好...

    垂直搜索引擎设计(简略)

    #### 垂直搜索引擎概述 垂直搜索引擎是指针对某一特定领域或主题进行信息收集、整理和检索的搜索引擎。与全网范围内的通用搜索引擎相比,垂直搜索引擎具有更高的专业性和针对性。例如,医学垂直搜索引擎专门用于...

    基于Heritrix与Lucene的垂直搜索引擎研究.pdf

    #### 一、垂直搜索引擎概述 垂直搜索引擎,作为搜索引擎领域的一个细分与深化方向,专注于某一特定行业或领域的信息搜索,提供更为精准、深入的检索结果。不同于通用搜索引擎的广泛覆盖,垂直搜索引擎通过对特定...

    对部分行业垂直搜索引擎的横向测评

    【垂直搜索引擎概述】 垂直搜索引擎是相对于通用搜索引擎而言的,它们专注于特定领域或行业,提供更为专业和精确的搜索结果。这些搜索引擎通常采用智能网络爬虫技术,通过抓取和分析网页内容来提供格式化的行业数据...

    基于强化学习的垂直搜索引擎网络爬虫的研究与实现

    #### 垂直搜索引擎概述 垂直搜索引擎是指专注于某一特定领域的搜索引擎,它通过专门设计的爬虫程序抓取该领域内的网站信息,并利用特定的算法进行索引和排序,从而为用户提供更加精准的搜索结果。相比通用搜索引擎...

    基于PHP的Sou垂直搜索引擎1.0buildGBK源码.zip

    2. 垂直搜索引擎概述 垂直搜索引擎与通用搜索引擎(如Google、Bing)不同,它专注于特定领域或行业,如新闻、科技、医学等,提供更精准的搜索结果。Sou垂直搜索引擎1.0buildGBK显然旨在为中文用户提供专业领域的信息...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    ### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...

    基于垂直搜索的机票搜索系统的设计与实现

    #### 一、垂直搜索引擎概述 ##### 1.1 定义与特征 - **定义**:垂直搜索引擎(Vertical Search Engine)是一种针对特定领域或行业的专业搜索引擎。它不同于通用搜索引擎(如Google、百度等),后者涵盖范围广泛且不...

    人工智能-项目实践-搜索引擎-基本的垂直搜索引擎,实现了基本的网络爬虫功能以及用Luence实现检索

    《构建垂直搜索引擎:从爬虫到Lucene检索》 在当今信息爆炸的时代,搜索引擎成为了我们获取知识、解决问题的重要工具。本项目实践旨在介绍如何构建一个基础的垂直搜索引擎,该搜索引擎专注于某一特定领域的信息检索...

    细细品味架构·基于Xapian的垂直搜索引擎的构建分析(第2期)

    2.2 搜索引擎的检索模型-查询与文档的相关度计算 2.2.1 检索模型概述 2.2.2 检索模型分类 2.2.3 布尔模型 2.2.4 向量空间模型 2.2.5 概率模型 2.2.6 语言模型 2.2.7 机器学习排序算法 2.3 BloomFilter–大规模数据...

    人工智能-搜索引擎-面向图书的垂直搜索引擎的研究与实现.pdf

    《人工智能-搜索引擎-面向图书的垂直搜索引擎的研究与实现》这篇论文深入探讨了人工智能在搜索引擎领域的应用,特别是针对图书资源的垂直搜索引擎。垂直搜索引擎是相对于通用搜索引擎的一种优化,它专注于特定领域或...

    基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现.pdf

    根据给定文件的标题、描述、标签以及部分内容,本文旨在探讨如何通过结合Lucene与Heritrix技术构建一个专门针对图书信息的垂直搜索引擎系统。以下是对该知识点的详细阐述: ### 1. 垂直搜索引擎简介 垂直搜索引擎...

    基于Heritrix体系结构的垂直搜索引擎研究

    ### 基于Heritrix体系结构的垂直搜索引擎研究 #### 摘要与背景 随着互联网信息的爆炸性增长,传统的通用搜索引擎虽然能够提供大量的信息资源,但在精确度、深度等方面存在一定的局限性。垂直搜索引擎应运而生,它...

Global site tag (gtag.js) - Google Analytics