垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。
搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。垂直搜索大致需要以下技术:
1. 信息采集技术
2. 网页信息抽取技术
3. 信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等
4. 语意相关性分析
5. 分词
6. 索引
信息采集技术,垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……
基于视觉网页块分析技术,模拟IE浏览器的显示方式,对网页进行解析。根据人类视觉原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取正文抽取……
结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了,如:MP3、图片搜索、google的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google通过这种技术正在颠覆做内容的方式。同样的技术应用还在qihoo、sogou购物、shopping等各种应用中体现。
简单的语法分析,简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容……
信息处理技术,信息处理包括的范围比较广,主要包括去重、聚类、分析……,这根据需要相关的技术就非常多。
数据挖掘,找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。
分词技术,面向搜索的分词技术,建立和您的行业相关的词库。注意这是面向搜索的分词,不是面向识别和准确的分词。就这个工作安排十几个人不停的维护也不会嫌多。
索引技术,索引技术对于垂直搜索非常关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的权值调整、灵活的索引和灵活的升级扩展、高可靠性稳定性冗余性。还需要支持各种技术的扩展,如偏移量计算等。
其它技术,略
分享到:
相关推荐
垂直搜索技术在农村综合信息网站设计中的应用 垂直搜索技术在农村综合信息网站设计中的应用
### 面向网络化制造资源的垂直搜索技术研究与应用 #### 一、研究背景与意义 随着信息技术的发展和互联网的普及,网络化制造已成为制造业发展的新趋势。网络化制造资源检索作为企业信息化的基础,对于实现网络化...
1.2.4 垂直搜索技术和业务细节 1.2.5 现场答疑【Q&A】 2、知识扩展 2.1 淘宝类目及标题相关性分档计算方法 2.1.1 系统预测该关键词所对应的优先展示类目 2.1.2 已召回宝贝进行该关键词与标题的相关性进行计算 2.2 ...
这份教程不仅提供了理论知识,还附带了部分源代码,使得学习者能够更直观地理解搜索引擎的工作原理和技术实现。 在信息爆炸的时代,搜索引擎成为我们获取所需信息的关键工具。搜索引擎的基本工作流程包括爬取、索引...
AUTONOMY的门户垂直搜索技术已广泛应用于各类行业,如新闻媒体、电子商务、企业内部知识管理等,显著提升了信息获取效率和用户满意度。 综上所述,门户垂直搜索是提升行业信息检索效率的重要工具,而AUTONOMY提供的...
最后,垂直搜索引擎可以尝试利用大数据、人工智能等先进技术,来进一步提升搜索服务的个性化和智能化水平。 总之,综合搜索引擎与垂直搜索引擎各自在信息服务模式上有着不同的特点和优势。对于搜索引擎的发展而言,...
垂直搜索技术,顾名思义是针对特定主题或领域进行信息搜索的工具,它在互联网信息日益庞大和复杂的情况下显得尤为重要。与传统的全网搜索不同,垂直搜索专注于某一特定行业或信息类别,比如房地产、旅游、健康等。...
在电信设备这个领域,垂直搜索技术的应用能够帮助用户快速、准确地找到所需的信息,如设备参数、通信协议、故障排查指南等。 文档中可能涵盖了以下几个关键知识点: 1. **垂直搜索频道的构建**:讲解了如何根据...
【描述】:本文主要探讨了如何利用人工智能技术,特别是垂直搜索技术,来设计一个针对校园环境的高效搜索引擎。此搜索引擎旨在解决传统通用搜索引擎在处理大量信息时遇到的问题,如搜索结果过多、重复、更新慢以及...
垂直搜索论文及技术 论文 google算法
该网站旨在通过垂直搜索技术,为用户提供最简单、最高效的查找方式,满足他们在育儿过程中的各种需求。商业计划书中强调了以下几个关键知识点: 1. **市场规模与增长**:育儿市场具有巨大的规模,特别是对于0-6岁...
1. **Spider**:类似于通用搜索引擎,垂直搜索引擎也需要爬虫技术来抓取特定领域的网页内容。 2. **网页结构化信息抽取**:由于垂直搜索关注的是结构化的数据,因此需要专门的技术来抽取和解析网页中的结构化信息或...
【育儿类垂直搜索网站商业...总的来说,这个商业策划书提出了一种创新的商业模式,通过垂直搜索技术来满足育儿市场中用户多样化的需求,同时为广告商和合作伙伴提供精准的投放渠道,有望在竞争激烈的市场中脱颖而出。
综上所述,垂直搜索引擎的设计和实现是一项综合性强的工作,涉及到爬虫技术、信息抽取、索引建立等多个方面。通过合理运用 Heritrix 和 Lucene 等工具和技术,可以有效地构建出性能优异、用户体验良好的垂直搜索引擎...