`
sony-soft
  • 浏览: 1105531 次
文章分类
社区版块
存档分类
最新评论

网页库级垂直搜索引擎技术

 
阅读更多


垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
 
垂直搜索引擎和 普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单 位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分 类等,最后分词、索引再以搜索的方式满足用户的需求。
  整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、
mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、
CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
垂直搜索引擎大体上需要以下技术

1.Spider
2.网页结构化信息抽取技术
或元数据采集技术
3.
分词、索引
4.
其他

垂直搜索引擎的技术评估应从以下几点来判断
1.
全面性
2.
更新性
3.
准确性
4.
功能性
垂直搜索的 进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就 可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。






分享到:
评论

相关推荐

    垂直搜索引擎研究

    垂直搜索引擎的实现涉及到了多种技术,包括但不限于网络爬虫技术、自然语言处理、信息检索等。其中,索引库的建立与更新是整个系统中最为核心且最具挑战性的部分之一。 1. **抓取模块**:需要设计高效的爬虫程序,...

    垂直搜索引擎爬虫系统的研究与实现

    ### 垂直搜索引擎爬虫系统的...总之,垂直搜索引擎爬虫系统的研究与实现,不仅涉及到网络爬虫、数据处理、建模与仿真、软件工程等多个领域的知识,还需要综合运用多种技术和工具,以实现高效、精准的信息抓取和处理。

    基于Lucene+webmagic实现的垂直搜索引擎

    总的来说,这个项目展示了如何整合多种技术来构建一个功能完备的垂直搜索引擎。通过学习和实践,我们可以加深对Lucene全文检索机制的理解,掌握WebMagic的网页抓取技巧,并了解到如何利用Bootstrap构建响应式的用户...

    网博垂直搜索引擎学习版

    网博垂直搜索引擎学习版是一款专为研究和学习设计的搜索引擎工具,主要针对特定领域或行业的信息进行深度检索。垂直搜索引擎与通用搜索引擎不同,它专注于某一类主题,如科技、医疗、法律等,提供更为精确和专业的...

    基于Heritrix与Lucene的垂直搜索引擎研究

    垂直搜索引擎的核心技术主要包括网页爬虫(Web Crawler)、网页信息抽取(Web Information Retrieval)、中文分词(Chinese Word Segmentation)以及建立与搜索索引(Index)。 ##### 2.1 网络爬虫 网络爬虫是一种自动化...

    SOPI垂直搜索引擎系统 V2.2

    自动生成对网站的配置,提高工作效率及降低工作难度,垂直搜索引擎对不同网站进行不同配置是必然的,本系统应用自动化技术将人工工作降到最低,将工作人员的技术要求降至最低。 可以从多个界而采集信息,系统进行...

    分布式智能垂直搜索引擎系统的设计.pdf

    【分布式智能垂直搜索引擎系统的设计】 本文探讨的主题是分布式...综上所述,分布式智能垂直搜索引擎系统通过技术创新和优化,能够为用户提供更专业、更精准的信息检索服务,是当前互联网信息检索领域的重要发展方向。

    ASP,NET源码——[搜索链接]网博垂直搜索引擎完全开源版.zip

    在这个名为“网博垂直搜索引擎”的开源项目中,我们可以深入学习ASP.NET的相关技术和搜索引擎的实现原理。 首先,让我们了解一下什么是垂直搜索引擎。与通用搜索引擎(如谷歌、百度)不同,垂直搜索引擎专注于特定...

    搜索引擎与信息检索教程

    源代码部分可能涉及到了实际的搜索引擎开发,如爬虫技术(如Python的Scrapy框架)、索引构建(如倒排索引)和检索算法的实现,这对于学习者理解和实践搜索引擎技术具有极大的价值。 此外,教程可能还会涉及现代搜索...

    人工智能-项目实践-搜索引擎-基本的垂直搜索引擎,实现了基本的网络爬虫功能以及用Luence实现检索

    《构建垂直搜索引擎:从爬虫到Lucene检索》 在当今信息爆炸的时代,搜索引擎成为了我们获取知识、解决问题的重要工具。本项目实践旨在介绍如何构建一个基础的垂直搜索引擎,该搜索引擎专注于某一特定领域的信息检索...

    ASP.NET-[搜索链接]网博垂直搜索引擎完全开源版.zip

    在这个“ASP.NET-[搜索链接]网博垂直搜索引擎完全开源版.zip”压缩包中,包含的是一个名为“ASP.NET-[搜索链接]网博垂直搜索引擎完全开源版_sbczss.rar”的子文件,这是一款专门针对网络博客的垂直搜索引擎系统。...

    基于垂直搜索的机票搜索系统的设计与实现

    - **非结构化数据抽取**:将抓取的网页中的非结构化数据抽取为结构化数据,这是垂直搜索引擎的核心技术之一。 - **数据存储与处理**:将抽取的结构化数据存储到数据库中,并进行进一步的数据清洗、去重等处理。 - **...

    高清彩版 自己动手写搜索引擎

    - **2.4 本章小结**:回顾本章内容,强调掌握基本搜索引擎技术的重要性。 #### 第3章:获得海量数据 本章主要关注如何有效地获取大量数据: - **3.1 自己的网络蜘蛛**:指导读者如何构建自己的网络爬虫,包括抓取...

    欧美垂直搜索引擎网页模板

    【垂直搜索引擎网页模板】是一种专为特定领域或行业设计的搜索工具,与通用搜索引擎不同,...设计一个成功的欧美垂直搜索引擎网页模板,需要综合考虑用户体验、功能实现、视觉美感和技术性能,以提供最佳的搜索服务。

    搜索引擎Lucene+Heritrix(第二版)4

    《搜索引擎Lucene+Heritrix(第二版)4》是一本深入探讨搜索引擎技术的专业书籍,主要围绕两个核心组件——Lucene和Heritrix展开。Lucene是Apache软件基金会的一个开源全文检索库,而Heritrix则是一个网络爬虫工具,...

    搜索引擎优化魔法书搜索引擎优化魔法书

    #### 四、SEO相关的搜索引擎技术 **4.1 搜索引擎机器人** - **定义**:搜索引擎机器人(爬虫或蜘蛛)是搜索引擎用来抓取网页信息的自动化工具。 - **如何辨别**:通常可以通过HTTP头信息中的User-Agent字段来识别...

    搜索引擎 Lucene、Solr

    在互联网行业应用架构中,搜索引擎技术不断进化,从基础的爬虫和索引,到自然语言处理和用户界面设计,每一个环节都是搜索引擎优化用户体验、提升信息检索效率的关键。了解和掌握这些技术对于设计和优化搜索引擎至关...

Global site tag (gtag.js) - Google Analytics