`
wind_bell
  • 浏览: 291943 次
  • 性别: Icon_minigender_2
  • 来自: 广州
社区版块
存档分类
最新评论
阅读更多

垂直搜索引擎技术

一、互联网信息采集与处理检索系统
1.         新闻搜索引擎SPIDER
2.         网页搜索引擎SPIDER
3.         定向专业搜索SPIDER
4.         基于视觉的正文智能提取模块(自动正文提取)
5.         智能摘要提取模块
6.         去重模块
7.         智能分类模块
8.         检索前端类聚模块
9.         分词模块
10.     索引模块
11. 最大可支持10TB以上数据容量,可分层建索引库、分布索引、分布检索、分布采集处理。
二、WEB结构化信息抽取技术(格式化数据抽取)
应用于垂直搜索引擎的重要技术,抽取出结构化数据。
三、自然语言的结构化信息抽取技术
应用于垂直搜索引擎,情报分析处理(科研产品)
垂直搜索发展方向
互联网发展至今,其间历经浮躁、追捧、泡沫、寒冬,现在正逐步向人们的日常生活消费、工作空间延伸。人们对互联网的需求也从最初的娱乐、聊天日益转为更加实际的衣、食、住、行、求医、求职等。人们获取信息的渠道从最初的几大门户发展到习惯使用Google、Baidu、Yahoo这些通用的搜索引擎。然而这些行业通用的搜索引擎能满足用户更加个性化、细化的信息需求吗?
  最近很多人在讨论搜索引擎的发展趋势,普通认为垂直搜索将是下个潜力市场。从Yahoo推出旅游搜索、Goolge的本地搜索、Baidu的地图搜索、可以看出这些通用搜索巨头所面临的竞争和搜索引擎的发展趋势。如果说搜索引擎的发展方向是垂直搜索,那么垂直搜索的发展方向又是什么?
  什么是垂直搜索?
  所谓垂直搜索,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。比如:用户搜索上海长宁区的可带宠物就餐的川菜馆的电话、菜单价格、交通指路等这就是一种垂直搜索。
  搜索领域有句名言:就是用户无法描述知道他要找什么,除非让他看到想找的东西。微软研究院一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度的提高搜索的“查全率”和“查准率”。正如一句英文所说的“Anything you can search at google you can buy on eBay”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。
  垂直搜索引擎的特点
  垂直搜索引擎的数据来源于哪里?其一来源于所处行业的相关站点,比如:找酒店、旅游信息的搜索引擎www.qunar.com 的数据来源于:www.ctrip.com 、www.elong.com 、,www.24-hotel.com 等。
  其二 来源于自身平台。
  可能很多人认为来源于自身平台的搜索只能称为站内搜索,不应该定义成垂直搜索。我不同意这种观点。事实当某一平台上的信息达到足够量大的时候,比如eBay、taobao上的商品数量达上百万种你能说他的搜索不是垂直搜索吗?况且垂直搜索本身就是从这些行业站点提取出数据的。
  比如:找餐馆的搜索引擎 www.Gudumami.cn (咕嘟妈咪) 的数据全部来源于它的加盟商户所发布的信息。
  当然,eBay、taobao、Alibaba也属于垂直搜索引擎,从用户使用的行为过程来看也是先有搜索动作而后才会有交易,不过更多时候人们愿意称他们为b2b、c2c交易平台。
  跟通用搜索引擎相比,垂直搜索引擎有哪些数据特性?垂直搜索引擎的数据倾向于结构化和格式化。比如在某个购物类的垂直搜索引擎上输入“mp3”就会出现,该产品的相关属性如:内存、尺寸、大小、电池型号、价格、生产厂家等相关技术属性,有的还提供比价服务。在某餐饮搜索引擎的高级搜索针对一家餐馆的搜索属性设置多达300个选项,把你想到和没想到都列出来了,这就把搜索服务专业化、细致化、个性化了。
  当然,垂直搜索引擎的广告模式也不会再仅是通用搜索引擎的那些套路。除了排名和竞价之外,还很多种广告营利模式。比如,加盟收入、订单提成、会员会费收入、交易费用收入等。由于垂直搜索引擎能提供更为集中的受众群体,因此它的“单次点击有效率”相比通用搜索引擎更为有效,风险更小。
垂直搜索引擎的几个发展方向
  更深化发展后,垂直搜索未来将发展到哪几个方向,是很多业内人士都在讨论的问题。笔者认为,它今后会向这几个方向发展。
  首先,目录再分类。与早期的网址分类搜索引擎相似,垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。
  最近Looksmart在日本推出了专门搜索饮食方面文章的垂直搜索引擎LooksmartJapanesefood,这是Looksmart第一个国外垂直搜索引擎。Looksmart甚至一口气推出了多达19个独立的垂直搜索引擎,分别涉足汽车、城市、教育、健康、家庭生活、赚钱、音乐、娱乐、运动、时尚、科技游戏、 旅行。另个五个teenja.com、gradewinner.com、21hoursholar.com、Parentsufr.com、gobelle.com分别针对青少年 、大学生、tweens、父母、女性。
  其次,垂直搜索引擎的第二个发展方向是深度挖掘型搜索,其特点是“元数据模型再组织、再整合、深度数据挖掘、互动性”。
  通过对元数据信息进入深度加工,该类垂直搜索引擎为用户提供网页搜索引擎无法做到的专业性、功能性、关联性、有的加入了用户信息管理以及信息发布互动功能,能很好地满足了用户对专业性、准确性、功能性、个性化的需求。 Healthline是医疗行业垂直搜索引擎它保证网上所有医疗信息都在你掌握之中。进入healthline的网站,你会发现他简直就是一个无所不知的医生。
  Healthline 的医疗医疗垂直搜索平台使用使用组合语义查寻技术和全面消费健康分类学 。Healthline分类数据由超过850,000项医疗相关元数据, 和50000 条相互关连的医疗概念组成。 这些独特资源使Healthline 翻译每天用户使用语言以便精确地匹配医疗术语,使得消费者能迅速从结果中判断确切的需要信息。第三,垂直搜索可以向本地搜索拓展,其特点是借助于地图元素来发展。
  到目前为止,各大搜索引擎Google、Yahoo、msn都推出了本地搜索而且都相对成熟。国内很多人把本地搜索理解等同于地图搜索,这是一种观念上错误。地图搜索只是本地搜索的一个功能元素,就像本地的天气预报一样。本地搜索的关键需求在于人们大多是在本地购物、就餐、娱乐、健身、修车、喝咖啡、工作等。简单地说,去一个什么样地方吃饭要比怎么去重要,地图只是确定和帮助你找到这个地方的工具。如果你不知道一家餐馆是否有你喜欢的菜,也不知道他的消费水平,更不知道他的服务水平及顾客评论,但你知道乘什么车能到达这家餐馆,那么你会选择这家餐馆吗?Map 不等于 local,但local一定包括map。不信你打开map.yahoo.com和Local.yahoo.com比较一下。国内的几大搜索引擎的本地搜索从2005年初开始到现在却仍停留在地图+黄页+公交指路的地图搜索水平阶段。只有中搜的“搜索北京”有点接近本地搜索,可惜没有加地图定位功能,仍停留在文本、图片展示的时代。国内做本地搜索的还有citysee等同样没提供地图定位功能。总体来说国内的本地搜索在数据挖掘、开放接口、信息共享方面和国外比存在很大差距,国外的垂直搜索已经形成了事实上的数据供应链关系。
  第四种可能,垂直搜索引擎可以向搜索交易平台发展。
  垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对的是小型商家,比如一家川菜馆,一个只有几个人机票代理商,一家美容院。他们甚至没有自己的站点,有些电话号码都是用的是私人的,你114根本查不到,但他们确实需要通过开展电子商务来获得更多的顾客。
  最近,healthline垂直搜索获得了1400万美元的融资,强力地刺激了人们对垂直搜索市场认可和期待。相信在未来几年的互联网搜索市场垂直搜索引擎一定会得到更大的发间和机会。
分享到:
评论
1 楼 llfzy 2011-04-11  
不错。。分析的很好。。

相关推荐

    综合搜索引擎与垂直搜索引擎的比较研究

    综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...

    垂直搜索,可以燎原.pdf

    标题:“垂直搜索,可以燎原.pdf” 描述:“哈尔滨工业大学,内部资料!一个小技术型会议的ppt” 标签:“垂直搜索” 部分内容摘要:这份由哈尔滨工业大学信息检索研究室制作的PPT,详细介绍了垂直搜索的概念、...

    垂直搜索浅析ppt垂直搜索浅析ppt

    垂直搜索是一种针对特定领域、行业或主题的搜索引擎,与通用的网页搜索引擎相比,它具有更专业、更深度的检索能力。这种类型的搜索引擎旨在为用户提供更加精确、相关度更高的搜索结果,满足用户在某一特定领域内的...

    C#垂直搜索网站代码下载

    【标题】"C#垂直搜索网站代码下载"指的是一个基于C#编程语言和Asp.net框架构建的,针对特定领域或行业的垂直搜索引擎的源码项目。这种类型的搜索引擎不同于通用的Web搜索引擎,它专注于某一特定领域,如技术文档、...

    网页库级垂直搜索引擎技术

    垂直搜索引擎的选型;网页库级垂直搜索引擎技术(二)如何做好一个垂直搜索引擎;信息抽取的资料文档

    垂直搜索引擎网络爬虫的研究与实现.pdf

    ### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...

    垂直搜索引擎的设计与实现

    论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...

    基于Java的垂直搜索引擎的设计与实现.pdf

    - **垂直搜索引擎定义**:垂直搜索引擎是一种专门针对某一特定领域或主题的搜索引擎,例如医疗、法律或购物等领域。它与通用搜索引擎不同之处在于,后者覆盖广泛的主题,而前者则专注于某一细分领域。 - **垂直搜索...

    垂直搜索引擎源代码

    垂直搜索引擎是一种针对特定领域、行业或主题的搜索引擎,与通用搜索引擎如Google或Bing不同,它们专注于提供某一专业领域的深度信息检索。这个源代码可能是实现这样一个定制化搜索系统的基石,旨在提供高效、高并发...

    奥搜垂直搜索引擎旅游版

    【奥搜垂直搜索引擎旅游版】是一款专为旅游行业设计的搜索解决方案,旨在提供高效、精准的旅游信息检索服务。在互联网信息爆炸的时代,传统的通用搜索引擎往往无法满足用户对特定领域,如旅游,深度和针对性的需求。...

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 带效果预览图片

    垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

    《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎,...

    前程无忧垂直搜索引擎项目实战

    《前程无忧垂直搜索引擎项目实战》是一门深度探讨如何构建高效、针对性强的搜索引擎的实践课程。本项目主要聚焦在Java技术栈上,利用DWR(Direct Web Remoting)进行前后端交互,同时结合了Lucene和Heritrix这两款...

    垂直搜索引擎完全开源版

    网博垂直搜索引擎完全开源版 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,完全开源,可以与...

    Lucene实现的数码产品垂直搜索引擎

    在“Lucene实现的数码产品垂直搜索引擎”项目中,开发者利用了Lucene的强大功能,结合其他技术如DWZ和HTMLParser,创建了一个专门针对数码产品的搜索解决方案。 首先,让我们深入理解Lucene的核心概念。Lucene是...

    heritrix与Lucene的垂直搜索引擎研究

    垂直搜索引擎是一种针对某一特定领域或行业的搜索引擎,其目的是为了提高搜索结果的相关性和精确度。与传统搜索引擎相比,垂直搜索引擎通常能提供更加精确且结构化的搜索结果。例如,酷讯的火车票搜索和搜房的房屋...

Global site tag (gtag.js) - Google Analytics