- 浏览: 562586 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (478)
- lucene (45)
- oracle (19)
- nutch (2)
- blog (2)
- 垂直搜索 (19)
- java综合 (89)
- spring (15)
- Hibernate (9)
- Struts (9)
- Hadoop (16)
- Mysql (12)
- nosql (10)
- Linux (3)
- MyEclipse (4)
- Ant (1)
- 设计模式 (19)
- JBPM (1)
- JSP (1)
- HtmlParser (5)
- SVN (2)
- 插件 (2)
- 收藏 (7)
- Others (1)
- Heritrix (18)
- Solr (4)
- 主题爬虫 (31)
- 内存数据库 (24)
- 分布式与海量数据 (32)
- httpclient (14)
- Tomcat (1)
- 面试宝典 (6)
- Python (14)
- 数据挖掘 (1)
- 算法 (6)
- 其他 (4)
- JVM (12)
- Redis (18)
最新评论
-
hanjiyun:
本人水平还有待提高,进步空间很大,看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ -
liuxinglanyue:
四年后的自己:这种方法 不靠谱。 使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言) -
jaysoncn:
附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题 -
231fuchenxi:
你好,有redis,memlink,mysql的测试代码吗?可 ...
MemLink 性能测试 -
guyue1015:
[color=orange][/color][size=lar ...
JAVA同步机制
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
垂直搜索引擎能否赢得市场?
垂直搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。
中国十年多来互联网的不断发展,造就出1.3亿的网民,搜索引擎也出现空前的火热。在互联网出现的初期,雅虎、新浪、网易等大型门户网站拥有着绝对多的浏览量,原因在于当初的大部分网站在技术上无法与门户网站相媲美,多数质量较差,内容不丰富,所以大型门户网站优秀的网页设计风格,大量的信息及时更新赢得了用户的认可,创造了第一次互联网的高峰。然而随之近年来网络技术的普及与应用,建立一个专业的网站已经不存在太多的技术门槛。于是看好互联网前景的网站纷纷涌现在我们的面前。相对比而言在某些领域中,大型门户网站的页面风格反而不如一些中小型网站的界面漂亮,同时各种分类的行业网站也慢慢的兴起,也使得门户网站的专业性信息远远难以相论,如此一来导致了流量的分流,众多的商家也逐渐意识到互联网商机并不像当初抄做的那样有实际价值。于是互联网第一次危机出现,这也是互联网发展的必然趋势。
搜索引擎的出现,整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。然而,搜索引擎行业也不是一家公司就可以独撑天下的,从百度的上市、yahoo中国的并购一系列动作表明,如今的搜索引擎大战如同门户网站初期的竞争一样激烈。相信,通用搜索引擎在经历过一段时间的角逐后,也将会继续维持几大服务商各自分控一部分市场的局面。
垂直搜索引擎概念的提出,就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说成是搜索引擎领域的行业化分工。众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。
1、垂直搜索引擎不是什么?
垂直搜索不只是类google的行业通用搜索。以房产行业为例,如果我们按照google抓取网页的方式,来建造一个房产行业google的做法,是行不通的。技术壁垒不用解释,就算我们借助nutch,lucene等搜索技术来做,我们也无法提供差异化的服务,而没有差异化的产品在互联网赢家通吃的规则下是无法生存的,就是不要简单地模仿,而要想办法形成互补。
垂直搜索和目前的google,baidu等通用搜索从定位,内容,用户,市场策略等都是不同的。所以垂直搜索不只是简单的行业google。
用户使用google,baidu等通用搜索引擎的方式是通过关键字的方式实现的,是语义上的搜索,返回的结果倾向于知识成果,比如文章,论文,新闻等;垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息,消息,条目等。对买房的人讲,他希望找的房子供求信息和文章,新闻等不同。这个特性是他们各自的的技术特点决定的。打个比方,如果google搜索引擎是一个正金字塔型,那么垂直搜索引擎就是个倒金字塔型,两者是互补的。
2、垂直搜索是什么?
我认为:垂直搜索的本质是对垂直门户信息提供方式的一次简化性的整合。
搜索领域有句明言:就是用户无法描述道他要找什么,除非让他看到想找的东西,这个过程有点像找对象,碰运气是用户搜索行为的最大的特征。而垂直搜索引擎就是提高为用户提供更好的运气。
垂直搜索是服务于某项功能的,比如:用户搜索租房,买房信息就是一种垂直搜索。对信息的再加工处理是非常关键的,不管是结构化的数据,还是非结构化的数据。
3、垂直搜索的内容来源:
A门户网站自身的资源
B以开放接口方式让行业用户提供的资源
C普通用户发布的资源
D抓取行业用户的资源
微软亚洲研究院负责搜索的一名技术专家说:75%的内容通用搜索引擎搜索不出来。这里面包含2层含义:
(1)网站结构不合理,网页对搜索引擎不友好;
(2)由于信息在互联网是海量的,非结构化的信息需要经过结构化的梳理后才能更好的展现。 如果梳理者能提供搜索,那样会更好。而垂直门户网站就是行业信息最好的梳理者。 垂直搜索引擎提供的主要内容不应该局限于普通的网页索引,而且包括商业信息的加工,结构化的信息。
4、进入垂直搜索的门槛在那里?
在互联网上说门槛,就是比资源。垂直搜索也是这样,能否提供全面权威的行业信息,能否拥有行业资源是垂直搜索引擎发展的门槛。换句化说,垂直门户是垂直搜索血统最近的父亲。作为房产行业的搜房网就是一个垂直门户,在房产领域没有谁比我们更清楚什么是垂直搜索了。
垂直搜索的难点不是技术,而是用户参与门户网站行为的创新和垂直门户网站对产业上下游信息资源的整合。
5、垂直搜索的特点:
(1)、搜索是一个产业商业联盟的平台,一个集成产业链的上下游公司的搜索门户。
(2)、垂直搜索的表现方式和google,baidu的表现方式不同,结构化的搜索和非结构化搜索并用。
(3)、从广告模式上 提供了除 google adsense 和 百度竞价排名广告 之外的另一种可能。
6、垂直搜索引擎的三个特点:
(1)、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:
比如:找工作的搜索引擎www.deepdo.com的数据来源于:www.51job.com,www.zhaoping.com,www.chinahr.com等等;
股票搜索引擎www.macd.cn的数据来源于:www.jrj.com.cn,www.gutx.com等股票站点;
(2)、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:
比如:我们找工作关注的:
职位信息: 软件工程师;
公司名称,行业名称:软件公司,外包行业等;
地点:北京,海淀;
(3)、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:
比如: 找:海淀 软件工程师 的工作等。
7、垂直搜索引擎站点的8条准则:
1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和
Yahoo,Google等通用搜索的的抓取方向重叠。
目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点;
2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:
我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。
3、深入分析垂直搜索引擎的索引数据特点:
垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁
垒太高,很可能出师未杰身先死。
4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。
5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。
6、垂直搜索引擎的web 2.0 需求:
垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积
分等机制,使搜索结果更加“垂直”。
7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息:
这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是
让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途径是一个关键部分。
8、垂直搜索引擎的社区化特征:
这一条和第9条是相关的。
俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。
发表评论
-
关于Web推荐系统的一些博客资料
2011-01-11 15:43 1805A.关于推荐系统的综述说明 推荐系统:主要推 ... -
搜索引擎技术二(帖子收藏)
2011-01-05 20:02 1234网络爬虫技术 搜索 ... -
搜索引擎技术一(帖子收藏)
2011-01-05 20:01 1289利用Sphinx实现实时全文检索 ... -
互联网上五个最高级的搜索引擎
2010-12-04 13:26 984搜索引擎是互联网上的百科全书,借助它你可查找和过 ... -
国外最被看好的十大垂直搜索引擎
2010-11-30 08:53 1104以下是福布斯杂志评选出来的2008年最值得关注、最被看好的 ... -
垂直搜索引擎深度分析
2010-11-30 08:50 10181.何为垂直搜索引擎所 ... -
Google's BigTable 原理 (翻译)
2010-11-27 10:28 822题记:google 的成功除了一个个出色的创意外,还因为 ... -
Google File System(中文翻译)
2010-11-27 10:27 862Google文件系统 GFS是一个可扩展的分布式文件系统,用于 ... -
MapReduce:超大机群上的简单数据处理
2010-11-27 10:26 1052摘要 MapReduce是一个 ... -
哈尔滨工业大学软件工程研究室的主要研究方向
2010-11-21 20:41 1302一、网络信息检索: 1、文本检索:研究Lin ... -
ELFHash 算法
2010-11-21 19:59 1135上个学期上Distributed Software Devel ... -
推荐个垂直搜索网站(国外)
2010-11-19 20:40 1037http://verticalsearch.com/index ... -
垂直搜索小组
2010-11-19 20:24 953垂直搜索引擎 -
搜索引擎资料收集(转)
2010-11-18 10:13 2966搜索引擎学习资源收集一、搜索引擎技术/动态资源<一> ... -
搜你所想 分享国外八大独具特色的搜索引擎
2010-11-18 10:10 1151在茫茫网海中,想要找 ... -
淘宝正式踏足搜索领域
2010-11-15 17:18 925新华网杭州11月15日电(记者张道生)记者15日从淘宝网获 ... -
精准搜索的基础:网站页面逻辑关系分析技术
2010-11-14 21:24 997精准搜索的基础:网站页面逻辑关系分析技术 http://u. ... -
垂直搜索网站
2010-11-07 10:03 972垂直搜索网站【推荐】 垂直搜索网站一栏表分 ...
相关推荐
综合搜索引擎与垂直搜索引擎作为互联网信息服务的两大主要工具,正日益成为人们检索和获取信息的重要途径。在本文中,我们将探讨两者在信息服务模式上的差异,以及它们之间的竞争与合作关系,并展望垂直搜索引擎未来...
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入...
总结,本文深入研究了面向校园的垂直搜索引擎的各个方面,从理论到实践,从网络爬虫设计到信息检索技术,再到系统优化,全面阐述了如何构建一个高效、精准的校园信息搜索平台。这一工作对于改善校园信息获取效率,...
【搜索引擎-汉英双向跨语言元搜索引擎CELANSE垂直化应用方法研究】 搜索引擎在信息时代起着至关重要的作用,它们帮助用户从互联网的海量数据中快速定位到所需信息。随着互联网的飞速发展,信息量急剧增加,用户面临...
### TRS垂直搜索引擎白皮书知识点解析 #### 一、垂直搜索引擎的概念与分类 ##### 1.1 垂直搜索引擎定义 垂直搜索引擎是指专门针对某一特定领域或行业的搜索引擎,其设计初衷是为了满足该领域用户的特定信息需求。...
了解垂直搜索引擎的概念,需要理解三个搜索的概念:用户对数据的检索,这是一个搜索概念;搜索引擎搜索行业网站是一个搜索概念;搜索引擎对行业网站内的行业数据搜索又是一个搜索概念。要做好一个垂直搜索引擎,需要...
总结来说,网博垂直搜索引擎完全开源版是一个功能全面、高度可定制的搜索解决方案,集成了先进的搜索引擎技术,并提供了丰富的开发接口和工具,以满足商业环境中多样化的需求。通过深入研究和二次开发,用户可以打造...
奥搜垂直搜索引擎旅游版正是针对这一问题,通过专门的算法优化和数据处理,为用户提供更专业、更全面的旅游信息查询。 垂直搜索引擎与通用搜索引擎的主要区别在于其专注于某一特定领域,例如本例中的旅游业。它会...
通过阅读《搜索对比关联购物信息的垂直搜索引擎及方法》这份资料,我们可以深入了解这一技术的具体实现和优势,以及如何将其应用于电信设备领域,优化消费者的购物体验。对于电信设备制造商、电商平台以及相关技术...
垂直搜索引擎优化则可能涉及行业特定的关键词和内容策略,而目录搜索引擎优化则可能涉及提交网站到相关的目录并保持信息的更新。 总的来说,掌握搜索引擎的分类和工作原理对于进行有效的SEO至关重要。这不仅能够...
根据给定文件的标题、描述、标签以及部分内容,本文旨在探讨如何通过结合Lucene与Heritrix技术构建一个专门针对图书信息的垂直搜索引擎系统。以下是对该知识点的详细阐述: ### 1. 垂直搜索引擎简介 垂直搜索引擎...
垂直搜索引擎对某一特定领域、特定人群或特定需求而提供的专业搜索引擎。其特点是“专、精、深”,且具有行业色彩。例如购物类搜索引擎、旅游类搜索引擎、就业类搜索引擎等。 搜索引擎的类型有很多,但是它们都有其...
垂直搜索引擎是一种针对特定行业或领域的数据检索工具,它与通用搜索引擎如百度、谷歌的主要区别在于,通用搜索引擎追求的是互联网范围内的广度和全面性,而垂直搜索引擎则更注重行业内的深度和专业性,可以称为行业...