/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估
CopyMiddle:张俊林
TimeStamp:2007/1/25
我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。
调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索
示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
李湘 黄健翔 研究生 大学 李宇春
5000数据: 5 80 53 452 25
百度: 45000 103000 608000 905,000 168,000
奇虎: 34775 83886 456969 4,233,610 102,117
souyo: 1434 1581 10060 121149 3032
有道: 11600 30200 130100 107万 3万7800
估算结果:
1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
排序:百度》奇虎》有道》souyo
奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。
分享到:
相关推荐
“工具”标签可能暗示了博客中涉及了一些辅助开发的工具,比如搜索引擎开发工具、日志分析工具,或者是用于调试、性能分析的工具。这些工具可以帮助开发者更有效地实现和优化搜索提示功能,例如使用Elasticsearch...
源码可能指的是分析和修改网站代码以优化SEO的部分,包括HTML、CSS和JavaScript的优化,确保搜索引擎能够正确理解和索引网页内容。而“工具”则可能是指用于SEO分析和跟踪的各种软件,如关键词研究工具、网站审计...
《网络营销》课程设计汇本书旨在帮助学生深入理解并实践网络营销策略,涵盖多个关键领域,包括企业调研、网络推广方案制定、网页设计、域名营销、搜索引擎优化(SEO)、客户关系管理和博客营销。以下是这些知识点的...
11. **导航栏目、搜索词排名、百度索引**:分析用户如何导航网站,关键词的搜索引擎排名,以及整体网络可见性。 12. **SEO建议**: - 根据数据调整SEO策略,提升搜索引擎排名,增加有机流量。 13. **地域分布、新...
Elasticsearch 是一个分布式、全文检索的搜索引擎,广泛应用于数据分析、日志聚合和实时搜索场景。为了确保系统在高负载下仍能保持高效稳定,性能测试是至关重要的。本篇文章将围绕如何对 Elasticsearch 进行性能...
标题中的“lucene全文检索实例二”指的是使用Apache Lucene这一开源全文搜索引擎库进行二次开发的一个具体案例。在这个实例中,开发者将展示如何在含有10万条数据的环境中实现文件的全文检索,并且包括增、删、改、...
在深入理解Lucene5的搜索引擎功能时,TermVector(项向量)是一个关键的概念,它对于文本分析、信息检索和相关性计算等方面起着至关重要的作用。TermVector是Lucene提供的一种特性,允许我们存储和检索文档中每个...