`

如何做好垂直搜索

阅读更多
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可*性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。

搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。垂直搜索大致需要以下技术:

1. 信息采集技术

2. 网页信息抽取技术

3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等

4. 语意相关性分析

5. 分词

6. 索引


本文先引用几句话: 

“确解用户之意,切返用户之需。”

“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”

“搜索引擎不是人人都能做的领域,进入的门槛比较高。”

“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理)

“做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。”

“用户无法描述道他要找什么,除非让他看到想找的东西。”

“所谓楔形,其实就是个倒三角,倒三角的尖端部分代表搜索技术,中部是基于技术的产品应用平台,最上端是对整个搜索引擎用户人群文化的认识和理解,以及现代公司竞争最关键也最捉摸不定的所谓品牌。”

“楔形”蕴涵的另一个意义是:楔子要打到墙里,尖端是否锐利很重要,但楔子的破坏性有多强,究竟能在墙面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。

搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。着急不得。原因是因为搜索引擎太复杂,而且“用户无法描述他要找什么,除非让他看到想找的东西。” 一切都需要摸索,尝试,问题需要一个一个解决,用户的需要得一点点的挖掘。

搜索引擎是一个产品,给用户提供服务的产品,需要长期的不断的改进升级调整才能持续不断的提用户体验,需要满足用户不断增长并且变化的需求、需要不断适应网络的变化。这是因为网络环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当成项目来做,做完了撂那让用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎如果用户体验一旦整体上有领先一年以上的差距并且持续2年,那前期的领先者的优势就荡然无存,因为搜索引擎的用户转移成本相对而言是比较低的而且口碑是最佳的传播方式。如果一个搜索引擎不能持续不断的技术创新理念创新,那对于这个搜索引擎来说就等于死亡。我们一般形容搜索引擎的领先是以时间计算的。比如:中搜离百度整体差距×年,百度离google的整体差距×年,……只要你能在用户体验上保持一年的领先优势持续2年,不需要炒作,一切纷至沓来。在用户体验面前,任何的炒作都显得很渺小。

作垂直搜索引擎,麻雀虽小,但是五脏俱全。无论理念文化、产品管理、应用、技术都和搜索引擎的楔形理论没有什么区别。所以要做好一垂直搜索必须解决这几个方面。

楔形的尖:垂直搜索技术。 


垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可*性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。

搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。垂直搜索大致需要以下技术:

1. 信息采集技术

2. 网页信息抽取技术

3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等

4. 语意相关性分析

5. 分词

6. 索引

信息采集技术,垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……

基于视觉网页块分析技术,模拟IE浏览器的显示方式,对网页进行解析。根据人类视觉原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取正文抽取……

结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了,如:MP3、图片搜索、google的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google通过这种技术正在颠覆做内容的方式。同样的技术应用还在qihoo、sogou购物、shopping等各种应用中体现。

简单的语法分析,简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容……

信息处理技术,信息处理包括的范围比较广,主要包括去重、聚类、分析……,这根据需要相关的技术就非常多。

数据挖掘,找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。

分词技术,面向搜索的分词技术,建立和您的行业相关的词库。注意这是面向搜索的分词,不是面向识别和准确的分词。就这个工作安排十几个人不停的维护也不会嫌多。

索引技术,索引技术对于垂直搜索非常关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的权值调整、灵活的索引和灵活的升级扩展、高可*性稳定性冗余性。还需要支持各种技术的扩展,如偏移量计算等。

其它技术,略。

垂直搜索引擎的技术评估应从以下几点来判断

1. 全面性

2. 更新性

3. 准确性

4. 功能性
分享到:
评论

相关推荐

    网页库级垂直搜索引擎技术

    垂直搜索引擎的选型;网页库级垂直搜索引擎技术(二)如何做好一个垂直搜索引擎;信息抽取的资料文档

    垂直搜索引擎开发房产行业实例.pdf

    要做好一个垂直搜索引擎,需要对这三个搜索的概念以及它们之间的关系进行深入的理解。 在整个垂直搜索系统中,它们分别占据了不同环节的关键位置,侧重点各不同,需要区别对待,但是在系统的角度看,又是需要它们...

    基于Heritrix与Lucene的垂直搜索引擎研究

    ### 基于Heritrix与Lucene的垂直搜索引擎研究 #### 1. 引言 随着互联网技术的快速发展和普及,互联网上的信息资源日益丰富,这也使得如何高效、精准地获取所需信息变得越来越重要。传统搜索引擎虽然能够提供广泛的...

    搜索引擎优化魔法书

    二、垂直搜索.................................................................................................................................6 三、元搜索引擎..............................................

    2.2获取网络信息的策略与技巧(教案).doc

    3. **网络信息检索的方法**:除了搜索引擎,还有元搜索引擎、垂直搜索引擎等,每种方法都有其适用场景。学生需要学会根据需求选择合适的检索方式。 4. **合法下载网络文件**:合法下载涉及到版权法和知识产权保护。...

    互联网创新创业实训基地B版..doc

    百度公司是中国最大的中文搜索引擎,自成立以来,一直致力于提供便捷的网络搜索服务,并逐步发展出多元化的产品线,包括社区搜索、垂直搜索、音乐搜索等,占据中国搜索市场份额的近80%。同时,百度推出了基于搜索的...

    《大数据基础与应用》教学大纲.pdf

    模块五关注大数据搜索技术,介绍搜索引擎的发展历程、组成、工作原理和评价指标,探讨垂直搜索和Web化数据,使学生具备有效利用搜索引擎和进行搜索引擎营销的能力。 模块六探讨大数据的存储问题,涵盖大数据存储...

    【备战2014】北京中国人民大学附中高考数学(题型预测+范例选讲)综合能力题选讲 第16讲 立体几何综合问题(含详解)

    解答这类问题通常需要从面面垂直、线面垂直等角度出发,逐步缩小搜索范围,直至找到符合条件的点。 在解答立体几何问题时,应注意以下几点: 1. 善于利用空间向量,将几何问题代数化,这有助于简化计算。 2. 对几何...

    2020年网页设计实习心得.pdf

    此外,他们在垂直搜索引擎领域拥有丰富的研发经验,这些技术应用广泛,为我在网页设计领域提供了宝贵的经验。 总的来说,这次实习是一次宝贵的学习经历,让我认识到理论知识与实践操作相结合的重要性。面对未来,我...

    盖得排行产品分析:做好PGC+UGC 提供更靠谱的购物决策服务.pdf

    盖得排行产品分析:做好PGC+UGC 提供更靠谱的购物决策服务 盖得排行是一款为广大消费者提供查询全品类商品排行榜/全国各大城市生活服务排行榜,以及各种分类型号专业排名的垂直内容社区,提供消费决策服务。该产品...

    网络爬虫-python和数据分析

    网络爬虫的应用非常广泛,不仅限于通用搜索引擎,还包括垂直搜索引擎、科学研究等多个领域。例如: - **垂直搜索引擎:** 如针对特定职业的招聘网站的搜索引擎。 - **科学研究:** 在线人类行为研究、社交网络分析等...

    《计算机信息存储与检索》课件

    此外,还有垂直搜索引擎,如学术搜索引擎(如Google Scholar)、图片搜索引擎(如Google Images)等,它们专注于特定类型的信息检索。 最后,信息检索系统的发展趋势包括大数据分析、机器学习和人工智能的融入。...

    基于Matlab的车牌识别(完整版)解读.docx

    1. 车牌定位:关键在于从复杂背景中准确识别出车牌区域,常用方法包括相关搜索、边缘检测和形态学操作。 2. 字符分割:垂直投影法是一种常见的方法,通过分析字符在垂直方向的投影特性来分割字符。 3. 字符识别:...

    5点创意策划:破解刷屏级短视频的策划秘诀.pdf

    其次,创意选题要关注时令、节假日或特殊活动,并提前做好策划。以520这类节日为例,创作者可以制作与爱情、美食相关的视频,利用节日氛围吸引观众。这不仅提升了视频的时效性,也增强了观众对内容的兴趣和情感共鸣...

    楼中楼贴吧社交论坛 v1.7.2.zip

    我们的努力,为了让站长全身心投入网站的核心“运营层”,在前期用心做好网站内容(这将影响社交网站未来的发展方向),并且维系好用户之间的关系,这才是一个轻社交网站的重中之重。   还值得一提,百度贴吧可以...

    浅谈网站运营技巧,作为网站运营者,每天都面临着各种各样的挑战,不管是网站自身的因素还是外来的压力,但是在我们的网站的日常运营维护中作上当然需要一些技巧

    网站运营者可以从网页类游戏、垂直搜索引擎、婚恋网站等热门的网站形态中获取灵感。比如说传统的网络游戏己经大行其道,而网页游戏以其方便的玩法,适合白领,不用下载客户端等优势而迅速找到很好的发展空间。婚恋类...

    H.264结构浅析

    在H.264中,这一参数决定了运动补偿的精度,搜索范围为32意味着在水平和垂直方向上最多可以偏移32个像素,以找到最佳的前/后参考帧块。 H.264编码的基本单位是宏块(Macroblock),由16x16像素的亮度块和对应的色度...

Global site tag (gtag.js) - Google Analytics