文章转载自
258集团《拆掉互联网那堵墙》
1、我们知道,每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider根据预定的规则,对已知或未知的网页进行逐页抓取。一般的通用搜索引擎爬虫会顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。理论上讲,爬虫从一定范围的网页出发,就能搜集到绝大多数的网页。大部分的通用搜索引擎爬虫是由自己的机房中的大量服务器群组执行的,由预定的工作方式进行定时或不定时地派出爬虫去抓取网页。
258商业搜索的爬虫则是分布式的云爬虫模式,没有大机房方式的爬虫服务器群组,只有少量的中央控制器,负责管理分布在全球各个普通的电脑爬虫客户端,爬虫根据258搜索预定的爬虫任务进行网页抓取,由系统预先进行网页类型判断,排除掉非企业网站或非法网站,然后根据企业网站的BR值进行各种不同频率的抓取。
通用搜索引擎抓取网页后,需要做大量的预处理工作。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等,我们叫通用搜索引擎的“网页预分析”。
垂直搜索,除了要执行通用搜索引擎的“网页预分析”外,还需要将页面的信息进行更详细的分析,比如哪些是公司联系方式,哪些是产品信息参数,价格、原材料、品牌、重量、包装等等都要事先进行分析和索引,我们叫垂直搜索引擎的“信息预分析”。
了解通用搜索引擎和垂直搜索引擎的区别,主要要掌握垂直搜索引擎是搜索“信息”,而通用搜索引擎是搜索“关键词”,这样能更加深入的理解搜索引擎爬虫和权重排序的相关要点,以便更容易理解SEO的细节。
分享到:
相关推荐
随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎...
垂直搜索引擎是一种针对特定领域、行业或主题的搜索引擎,与通用搜索引擎如Google或Bing不同,它们专注于提供某一专业领域的深度信息检索。这个源代码可能是实现这样一个定制化搜索系统的基石,旨在提供高效、高并发...
与通用搜索引擎相比,垂直搜索引擎更加专注于某一特定领域的数据挖掘和信息检索,从而提高了搜索结果的相关性和准确性。垂直搜索引擎在电子商务、医疗健康、教育科研等领域有着广泛的应用前景。 #### 网络爬虫技术 ...
根据给定文件信息,我们可以提炼出以下...通过定制化的开发和优化,能够有效地提升垂直搜索引擎的性能和用户体验。此外,垂直搜索引擎因其聚焦于特定领域,能够更好地满足用户的特定需求,在未来有着广阔的应用前景。
首先,我们要理解垂直搜索引擎与通用搜索引擎的区别。垂直搜索引擎专注于特定领域,如本案例中的“前程无忧”聚焦于招聘市场,提供更精确、更专业化的搜索服务。它需要对特定领域的数据进行深度处理和索引,以提高...
垂直搜索引擎专注于某一特定行业领域,为用户提供更加精准的信息和服务。本文将重点探讨垂直搜索引擎中的关键技术,并介绍一个具体的垂直搜索引擎设计案例。 #### 二、垂直搜索引擎的关键技术 ##### 2.1 网络爬虫 ...
搜索引擎主要分为两类:通用搜索引擎和垂直搜索引擎。通用搜索引擎广泛覆盖各类信息,但可能会返回大量不相关的搜索结果。相比之下,垂直搜索引擎仅关注某一专业领域,如图书,从而减少用户筛选信息的负担。 接下来...
相比于通用搜索引擎,垂直搜索引擎更加专注于某一类信息,例如科技文章、医疗数据、法律文档等,提供更精确、更专业的搜索结果。SOPI系统可能包含以下几个核心知识点: 1. **数据采集**:垂直搜索引擎首先需要对...
与通用搜索引擎相比,它更加聚焦和精准,能有效提高信息检索的质量和效率。例如,一个专门针对医学研究的垂直搜索引擎,相比于Google这样的全网搜索引擎,更能提供专业且相关的医学文献和资源。 #### 2. **爬虫系统...
与通用搜索引擎不同,垂直搜索引擎更加专注于某个狭窄的领域,如医疗健康、法律咨询、旅游预订等。 ##### 1.2 垂直搜索引擎的分类 根据应用领域的不同,垂直搜索引擎可以分为以下几类: - **政府相关的垂直搜索...
垂直搜索引擎的工作流程与通用搜索引擎相似,主要步骤包括网页抓取、元数据处理、关键词权重计算、网页排名和结果返回。通过网络蜘蛛抓取网页,分析处理后,依据关键词的相关性和重要性对网页进行排序,当用户输入...
与通用搜索引擎相比,垂直搜索引擎更加聚焦,旨在为用户提供更为精准、高效的信息查询体验。这类搜索引擎通常会对特定领域的网页进行深度抓取和分析,并通过特定的技术对数据进行结构化处理,从而能够提供更为精确的...
相比通用搜索引擎,垂直搜索引擎更注重对特定领域数据的深度挖掘和精确检索。在这个项目中,我们需要设计和构建一个垂直搜索引擎,主要涉及以下步骤: 1. 数据采集:从特定的源获取相关数据,例如网页、数据库或...
垂直搜索引擎与通用搜索引擎的主要区别在于其专注于某一特定领域,例如本例中的旅游业。它会深入抓取、索引并分析与旅游相关的网页、酒店信息、航班数据、旅游攻略、景点介绍等,以便用户能快速找到所需内容。这种...
垂直搜索是相对于百度、谷歌这类通用搜索引擎提出的概念。百度、谷歌的讲究的是搜索的广度,具体来说就是搜索引擎搜索到的页面数量,搜索到的内容涵盖互联网的范围,要求数量多和全面。垂直搜索也要求广和全,但这是...
垂直搜索引擎与传统通用搜索引擎的最大区别在于其数据源和索引策略。它们通常从特定的、有限的网站或数据库中抓取信息,对这些信息进行深度处理和结构化,以便快速、准确地响应用户的查询。这涉及到以下几个关键步骤...