百度的索引真的比雅虎多么?
timestamp:2006/12/3
看到一篇文章“[数据统计] 搜索引擎索引库:百度大于雅虎中国 之一”
http://blog.csdn.net/accesine960/archive/2006/12/03/1428337.aspx
这个调查很明显是有问题的。
1.“在双方都认为最重要的3793个站点中:百度索引量:1626829061 ,雅虎中国的索引量:1018594668,高出:608234393 ,高出6亿。”
首先,我们算一下平均每个网站有多少个网页
1626829061/3793=428902
就是说平均每个网站索引42万个页面。你说可能么?这些网站每个网站有这么多页面么?只有一个可能,就是同一个网页在不同时间点的内容是分别被索引的,同一个页面会有N个不同版本被索引信息。这跟爬虫策略有关系,但是对于用户来说这N个结果都有意义么?
百度显示的信息是没有去掉N个版本的结果,而雅虎的部分结果是去掉不同版本只保留一个版本的数据,不信你用site:www.hexun.com看看百度和雅虎的结果(请翻到第六页后),两者实际上差不多都是70个左右,但是百度显示是几千个,这么算当然百度会多出很多。
所以,这么算是没有意义的。
2.“百度的索引量分布图比较接近“长尾 Long Tail ”,长尾曲线比较完美。图形越接近长尾表明搜索引擎索引库基础的架构越好。
(理由是:"哥白尼对天动说美学上的反对是他拒绝托勒密体系的重要原因..." - Thomas Kuhn, The Copernican Revolution )”
这个理由实在是难以理解。
3.我们用几个关键词实验
比如:“教育”,“中国教育”,“的”,“我们”等等
看一下百度和雅虎的搜索结果个数,在抛掉上面讲的百度输出N个
不同版本的事实,看看到底是哪个搜索引擎的索引量多?
我们能得出的结论是相反的:百度和雅虎的索引量是相当甚至
可能雅虎还多于百度的。
分享到:
相关推荐
首先,唯一索引和普通索引的主要区别在于,唯一索引强制索引列的值必须是唯一的,不允许有重复值,而普通索引则允许重复值。在身份证号这种具有唯一性的字段上,无论选择哪种索引,从逻辑上看都是合理的。然而,从...
普通索引和唯一索引的选择 在 MySQL 中,索引是一个非常重要的概念,它可以提高查询的效率和性能。但是,普通索引和唯一索引是两个不同的概念,它们之间的选择将对数据库的性能产生重要影响。 普通索引和唯一索引...
什么是索引? 在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值得集合和相应的指向表中物理标识这些值得数据页的逻辑指针清单。索引的作用...
InnoDB索引与MyISAM索引实现的区别是什么?.mp4 InnoDB索引与MyISAM索引实现的区别是什么?.mp4 InnoDB索引与MyISAM索引实现的区别是什么?.mp4 InnoDB索引与MyISAM索引实现的区别是什么?.mp4 InnoDB索引与MyISAM...
何时使用聚集索引或非聚集索引?下表总结了何时使用聚集索引或非聚集索引: | 动作描述 | 使用聚集索引 | 使用非聚集索引 | | --- | --- | --- | | 列经常被分组排序 | 应 | 不应 | | 返回某范围内的数据 | 应 | 不...
- **索引的作用**:索引是数据库中用于提高查询速度的一种数据结构。它类似于书籍的目录,可以帮助数据库管理系统快速定位到数据所在的物理位置,从而加快数据检索的速度。 - **索引类型**: - **非聚集索引...
"es百度索引test工程创建"是一个学习项目,旨在帮助用户了解如何在Elasticsearch中创建和管理索引,以及与百度相关的数据处理。下面我们将深入探讨相关知识点。 1. **Elasticsearch基础知识** - **分布式特性**: ...
- **存储空间**:聚集索引由于包含实际的数据行,因此通常比非聚集索引占用更多的空间。但另一方面,非聚集索引可能因为存在多个索引而占用更多额外的空间。 #### 五、索引优化建议 1. **避免过度索引**:虽然索引...
【百度索引量详解】 1. **什么是百度索引量?** 百度索引量是指搜索引擎——百度,对网站页面进行抓取并存储在数据库中的数量。这个数据反映了百度蜘蛛(即百度的爬虫程序)对网站内容的收录情况。虽然这并不等同...
聚簇索引是数据库索引技术中的一种特殊类型,它在数据表中直接存储了数据行,并且这些数据行是按照聚簇索引的键值(通常为主键)的顺序物理排列的。聚簇索引结构本质上是一种特殊的B+树数据结构,使得数据记录的物理...
### 分区索引—本地索引与全局索引的区别 #### 一、Oracle分区索引概念及分类 在Oracle数据库中,分区索引是针对分区表的一种特殊索引类型,它可以显著提高对于大规模数据集的查询性能。根据索引是否与表的分区...
在没有索引的情况下,数据库进行数据搜索主要依赖于数据页的物理结构和内存缓冲机制。下面将详细解释相关知识点: 首先,我们需要理解数据库中数据的存储方式。在数据库中,数据以页为单位存储在磁盘上,每个数据页...
添加搜索自动索引百度热搜关键词 添加首页tab标签模式加载方式切换(ajax加载和普通加载)(首页设置) 修复tab标签ajax加载模式会显示未审核的网址的bug 小屏幕热搜采用水平滚动 优化子主题支持 添加文章分页 添加解决...
一、 创建主键(主键=主键索引=聚集索引) 主键是什么? 答:拿主键可以唯一确定一条数据,它和物理存储排序一致,不能为空,一个表只能有一个。 原本没有创建的主键的表在磁盘上存储为: Id=0;username=username0;sex...
《InDesign CC 2021 中文索引插件详解》 Adobe InDesign CC 是一款广泛应用于出版行业的专业排版软件,它以其强大的布局设计和类型设置功能而备受赞誉。在复杂的出版项目中,索引是不可或缺的一部分,它帮助读者...
数据库中的索引是一种为了加速数据查询而创建的数据结构,它为表中的字段提供了一种快速访问的方法。在没有索引的情况下,数据库系统执行查询时必须进行全表扫描,即逐行检查直到找到所需数据,这在数据量大时效率极...
4. 考虑NULL值:在InnoDB中,NULL值在索引中占的空间比非NULL值少,但过多的NULL值可能导致索引碎片,影响性能。 了解了这些基本概念后,我们可以使用MySQL提供的工具进行分析和优化。例如,`EXPLAIN`语句可以帮助...
聚集索引的查询速度通常比非聚集索引快,但创建和维护聚集索引可能会对写操作性能产生影响。 **索引模式**则涉及到如何设计和选择合适的索引策略来优化数据库性能。这包括决定哪些列应该被索引,以及选择适合的索引...
Oracle 在线创建索引和重组索引 Oracle 在线创建索引和重组索引是数据库管理员经常需要处理的问题。在线创建索引可以提高查询性能,而重组索引可以减少索引的碎片化和空间浪费。下面我们将详细介绍在线创建索引和...
标题中的“今天你雅虎了吗?”是对YAHOO公司的戏谑问候,暗示了YAHOO在互联网行业的影响力。这个压缩包文件包含了一份关于YAHOO公司的PDF文档,可能详细介绍了公司的历史、发展、业务以及其在大数据领域的贡献。让...