`
totoxian
  • 浏览: 1074377 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一

阅读更多

[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一

互联网渗透的越深、世界就会越平;信息越透明,诚信越重要---题记



关心搜索引擎的朋友们都知道,搜全率和搜准率是衡量搜索引擎系统的两项基础指标,在很多关于搜索引擎技术评比的文章中搜全率和搜准率被频频提及。

搜准率是一个很难量化的指标,如何判断一个搜索引擎的搜索结果和使用者的意图最相关,没有一个定性的结论。所以很多冠以智能化、社会化、元搜索头衔的搜索引擎也都是朝搜准这个方向努力,耐人寻味的是,大多数公司都宣称自己的搜索引擎是基于那些技术,却没有告诉我们一个可以接受的衡量指标。当然,这不怪他们。

搜全率相对来说则可以量化,最简单的衡量指标就是索引量了。google和yahoo 之间曾有过争论:“实测证明Google仍是搜索之王 雅虎"牛皮"吹破” 。对于这次争论google是如何反击的呢?正如keso所说的google在反商业化的上的成功一样,google 随后不久透露要减小索引库的大小。很显然对于浩如烟海的互联网来说,能搜全仍是一个艰巨的目标。

类似的情景正在中国上演。在“It人士每天必读的100篇互联网新闻”上经常可以看到雅虎中国的宣传稿件,主题有开创蓝海、搜索盲测、抓虫行动等等,而百度此类的新闻却鲜有耳闻。百度的低调或许可以让他在靠近“google”的形象上多加一分。


中文搜索引擎谁最好?除了搜全率和搜准率外,最近又多出了一个争论的焦点:“谁最懂中文”。然后在这场单方面发起的谁最懂中文的时候,搜狗却实实在在的来了句:“搜狗更懂网络”。我想雅虎市场人员也许该从百事可乐的成功中学点什么。

作为一个搜索引擎的爱好者,我对搜全率和搜准率的问题也非常关注。于是动手准备测试一下雅虎中国和百度索引库的情况。这并不是一个好差事,但我决定还是尝试一下。

搜全率的测试方法:基本方法:抽样测试
分2个阶段进行:
1、测试对指定站点的索引量 (本文进行分析)
2、测试对基础关键词的索引量(在下一篇文章中进行分析)


本文的数据主要是对“指定站点的索引量”的一个数据统计。

基本资料分三部分:
1、指定站点的来源,出于公平的考虑,指定站点分别来源于:http://site.baidu.comhttp://site.yahoo.com.cn 。总共4784个,可以从下面的链接下载。
2、对上述站点的索引量统计,即使用:site:domain 的方法获取搜索引擎对此站点的索引量。为了增加可比性,去掉了索引量为0的站点(或许因为网络错误造成的,原始资料在附件中)。
(前端时间百度的site数量变化有些异常,现在基本正常。另一篇文章会捎带分析这个现象。)
3、相关分析。


结果见下图:

(分析过程省略,详细的数据可以从这里下载: http://www.search-analysis.com/baiduVSyahoochina-01.rar


结论:
1、百度的索引库比雅虎中国的大。
在双方都认为最重要的3793个站点中:百度索引量:1626829061 ,雅虎中国的索引量:1018594668,高出:608234393 ,高出6亿。


2、百度的索引量分布图比较接近“长尾 Long Tail ”,长尾曲线比较完美。图形越接近长尾表明搜索引擎索引库基础的架构越好。
(理由是:"哥白尼对天动说美学上的反对是他拒绝托勒密体系的重要原因..." - Thomas Kuhn, The Copernican Revolution )

很显然上面的分析还不一定能囊括所有方面,因此我准备还从下面几个方面继续深入研究:

之二:[百度vs雅虎中国]收录量和pr的相关性;
之三:[百度vs雅虎中国]索引量和alexa排名的相关性;
之四:[百度vs雅虎中国]如何测试搜索索引库的膨胀率;

原文: [数据统计] 搜索引擎索引库:百度大于雅虎中国 之一

分享到:
评论

相关推荐

    c#搜索引擎同步索引库和数据库中的数据

    搜索引擎的主要任务是建立和维护一个索引库,这个库包含了从各种数据源(如数据库)提取的可搜索信息。索引库提高了数据的检索效率,使得用户能够快速查找所需信息。 3. **dbspider**:虽然未提供具体关于dbspider...

    搜索引擎的索引技术:INDEX TECHNIQUES

    在标题为"搜索引擎的索引技术:INDEX TECHNIQUES"的课程中,主要讨论了搜索引擎如何处理海量数据,以快速响应用户的查询需求。这一主题涵盖了从文档收集、信息需求理解到索引建立、布尔查询实现以及排序算法等多个...

    搜猫搜索引擎源码|仿百度搜索引擎源码

    【标题】"搜猫搜索引擎源码|仿百度搜索引擎源码"揭示了这是一份与搜索引擎相关的源代码,特别提到了“搜猫”品牌,并模仿了知名的百度搜索引擎的某些功能或设计。这个源码可能是用于学习、研究或者开发自己的搜索...

    解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt

    《解密搜索引擎技术实战:Lucene in java(第2版)源码 dvd ppt》是一部深入探讨搜索引擎技术的著作,特别关注于使用Java实现的开源全文搜索引擎库——Lucene。本书结合了理论与实践,旨在帮助读者理解搜索引擎的...

    百度google综合搜索引擎源码

    【标题】:“百度google综合搜索引擎源码”涉及的是搜索引擎技术的整合与开发,尤其是将百度和Google这两大主流搜索引擎的功能进行结合。搜索引擎源码通常包括爬虫、索引构建、查询处理、排序算法以及用户界面等多个...

    搜索引擎技术手工索引

    手工索引是一种早期的索引方法,通常在搜索引擎发展初期使用。这种方法依赖于人工对网页进行浏览、理解和分类,然后将这些信息组织成索引。虽然手工索引可以提供更准确的索引质量和深度,但其效率极低,无法跟上...

    百度搜索引擎

    10. **优化与维护**:一个持续运行的搜索引擎需要不断优化,包括改进搜索性能、更新索引策略、应对新的网络威胁等,以保持其高效和可靠性。 综上所述,“百度搜索引擎”这个项目涵盖了从基础的网页搜索原理到ASP...

    Python项目案例源代码:百度搜索引擎.zip

    在本项目中,我们将深入探讨一个使用Python编写的百度搜索引擎的源代码案例。这个案例旨在帮助开发者理解如何利用Python进行网络爬虫开发以及如何构建简单的搜索引擎。以下是对该项目的关键知识点的详细说明: 1. *...

    中文搜索引擎技术揭密:网络蜘蛛.rar

    4. 存储索引:将解析后的信息存储在索引库中,便于后续的搜索查询。 5. 链接分析:根据网页间的链接关系,评估网页的重要性,如PageRank算法。 6. 更新与回访:定期重新抓取网页,确保信息的时效性。 三、中文搜索...

    制作简单的搜索引擎,构建倒排索引

    搜索引擎是信息检索领域的重要工具,其核心在于倒排索引的构建。倒排索引是一种高效的数据结构,用于快速定位到包含特定查询词的文档。在这个项目中,我们使用简单的C语言来实现这一过程,这对于初学者理解搜索引擎...

    百度云搜索引擎

    【标题】:“百度云搜索引擎”是一个专为在线存储在云端的文件设计的搜索引擎工具,它允许用户通过关键词来查找并访问存储在百度云盘(又称百度网盘)上的各种资源。这款工具极大地提升了用户在海量云存储数据中的...

    仿百度搜索引擎PHP源码

    【标题】"仿百度搜索引擎PHP源码"是一个基于PHP编程语言开发的搜索引擎系统,它的设计灵感来源于百度,旨在提供一个类似百度的用户界面和搜索体验。这个系统的核心目标是为用户提供快速、准确的信息检索功能,使得...

    第一个搜索引擎: 为一个文本文件添加索引 以便检索

    标题中的“第一个搜索引擎”指的是构建一个基础的文本检索系统,它允许用户快速查找文本文件中的特定信息。在早期的互联网时代,这样的系统是搜索引擎技术的基础,它们通过建立文本索引来加速信息查找。在这个过程中...

    最新仿百度搜索引擎,带蜘蛛

    本文将深入探讨“最新仿百度搜索引擎,带蜘蛛”这一主题,包括搜索引擎的基本原理、蜘蛛爬虫的工作方式,以及与百度搜索引擎的相似之处。 首先,搜索引擎的核心功能是为用户提供信息检索服务。它通过抓取、索引和...

    asp.net源码搜索引擎.仿百度,后台包含爬虫.前台搜索页面

    仿百度,后台包含爬虫"说明了该系统的核心部分包括一个后台爬虫,这是搜索引擎的关键组件,它负责抓取互联网上的网页数据,以便于进行索引和搜索。爬虫通过自动遍历和下载网页,收集信息,然后将其存储在数据库或索引...

    JAVA搜索引擎之模仿百度蜘蛛

    在IT领域,搜索引擎是至关重要的技术之一,它们帮助我们快速找到网络上的信息。在这个主题中,我们将探讨如何使用JAVA来创建一个类似于百度蜘蛛的搜索引擎。首先,我们需要理解百度蜘蛛(也称为网络爬虫)的工作原理...

    uuid全文索引千度搜索引擎

    标题中的“uuid全文索引千度搜索引擎”是一个项目或软件的名称,暗示了这是一个与搜索引擎相关的技术实现,可能用于在大量数据中快速查找特定信息。它特别提到了“uuid”,这是Universally Unique Identifier的缩写...

    文本全文搜索引擎 利用倒排索引实现

    文本全文搜索引擎是现代信息检索的重要...总之,倒排索引是构建全文搜索引擎的关键技术,通过合理地组织和索引文本数据,能够实现高效、精确的文本搜索。在Python中实现倒排索引可以帮助我们更好地理解和运用这一概念。

Global site tag (gtag.js) - Google Analytics