`
touchmm
  • 浏览: 1026974 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

博客搜索引擎索引博文数量分析与评估

阅读更多
/*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估

CopyMiddle:张俊林
TimeStamp:2007/1/25

我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。

调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索

示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".


李湘 黄健翔 研究生 大学 李宇春

5000数据: 5 80 53 452 25

百度: 45000 103000 608000 905,000 168,000

奇虎: 34775 83886 456969 4,233,610 102,117

souyo: 1434 1581 10060 121149 3032

有道: 11600 30200 130100 107万 3万7800


估算结果:


1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量



排序:百度》奇虎》有道》souyo

奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%


百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。

分享到:
评论

相关推荐

    搜索引擎技术手工索引

    相比之下,索引提供了直接访问的能力,其评估时间与查询项在集合中的出现次数成正比,适合大规模的文本集合。混合策略则结合两者,先用小索引定位,再扫描部分集合。 索引的内容取决于所采用的信息检索模型。例如,...

    制作简单的搜索引擎,构建倒排索引

    当用户输入查询时,搜索引擎会通过查询分析,将查询词转化为可搜索的形式,然后在倒排索引中查找这些词,找到它们对应的文档位置(称为文档ID)。最后,根据这些文档ID返回相关的搜索结果。 倒排索引的构建包括以下...

    uuid全文索引千度搜索引擎

    标题中的“uuid全文索引千度搜索引擎”是一个项目或软件的名称,暗示了这是一个与搜索引擎相关的技术实现,可能用于在大量数据中快速查找特定信息。它特别提到了“uuid”,这是Universally Unique Identifier的缩写...

    用C语言写的C搜索引擎含多种建立索引的方式

    标题中的“用C语言写的C搜索引擎含多种建立索引的方式”揭示了这是一个使用C语言编写的搜索引擎项目,其中包含了多种创建索引的技术。这可能是针对文本文件或网页内容的搜索功能,通过索引来提高搜索效率。C语言因其...

    CSDN博文搜索引擎源码

    【CSDN博文搜索引擎源码】是一个用于搜索CSDN博客文章的系统,它整合了多个关键组件,帮助用户快速定位到所需的技术信息。这个源码涵盖了从数据爬取、文本处理到索引构建和查询执行的全过程,是学习和研究搜索引擎...

    【日文SEO】如何测试搜索引擎的索引量大小

    搜索引擎的索引量是指被搜索引擎收录并可供查询的网页数量,而抓取量则指的是搜索引擎爬虫抓取的全部网页数量,两者并不相同。高质量的索引量意味着搜索引擎能够提供更丰富、更多样的搜索结果。 索引量并非越大越好...

    spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)

    《Spark实现财经新闻搜索引擎》 本项目旨在利用大数据处理框架Spark来构建一个财经新闻搜索引擎,涉及的主要技术包括新闻正文提取、中文...在大数据时代,这样的搜索引擎对于财经信息的检索和分析具有很高的实用价值。

    搜索引擎基本工作原理.pdf

    处理网页阶段,搜索引擎会对抓取的数据进行一系列预处理,包括关键词提取、建立索引、去重、分词(对于中文网站尤为重要)、分析超链接,以及评估网页的重要性或丰富度。这些工作旨在提高搜索效率和结果的相关性。 ...

    搜索引擎的分析与程序设计,网络爬虫抓URL的原理,基于C#

    在这个主题中,我们将深入探讨搜索引擎的分析与程序设计,以及网络爬虫抓取URL的原理,这些内容都将基于C#编程语言进行讨论。 首先,搜索引擎的核心功能是索引和搜索网页。它的工作流程可以分为四个主要步骤:爬取...

    基于Lucene的搜索引擎的研究与应用

    3. Lucene索引与搜索机制 Lucene的索引过程首先对文本内容进行语言分析,然后将文本转换成结构化的词元集合进行存储。索引过程中,还会对文本进行标准化处理,如转换为小写、去除停用词等。搜索时,用户输入的查询...

    一种面向商业领域的搜索引擎索引结构设计及实现.pdf

    《一种面向商业领域的搜索引擎索引结构设计及实现》一文深入探讨了针对商业搜索需求的搜索引擎索引结构设计与实现方案。文章指出,传统的搜索引擎技术在处理商业领域搜索时存在明显不足,尤其在灵活排序、特殊单字段...

    搜索引擎技术分析

    - **增量索引与批量索引**:Lucene支持增量式索引和批量索引,这使得用户可以在不重建整个索引的情况下添加新文档或更新现有文档。这种机制提高了索引效率和应用性能。 - **灵活的数据源处理**:Lucene没有限定...

    人工智能-项目实践-搜索引擎-基于Lucence的it博客搜索引擎

    本项目实践聚焦于“人工智能-项目实践-搜索引擎-基于Lucene的IT博客搜索引擎”,这是一个利用自然语言处理和信息检索技术,专为IT博客定制的搜索引擎。下面将详细介绍这个项目及其相关知识点。 1. **搜索引擎基础**...

    搜索引擎的混合索引技术

    在天网搜索引擎的实践中,通过采用基于未登录词自动识别技术的混合索引方法,有效地解决了中文搜索引擎中分词词典规模与检索效率之间的矛盾。该方法通过对短语和邻近词语的识别,提高了短语查询的检索效率。同时,...

    搜索引擎技术分析.doc

    综上所述,《搜索引擎技术分析.doc》文档涵盖了搜索引擎从数据获取、索引构建、查询处理到优化的全过程,对于想要深入了解和从事搜索引擎相关工作的人来说,是一份非常有价值的学习资料。通过深入学习,我们可以更好...

    电信设备-一种搜索引擎索引的加密压缩方法及信息检索方法.zip

    标题中的“电信设备-一种搜索引擎索引的加密压缩方法及信息检索方法”表明了这个压缩包文件的内容聚焦在电信设备领域,特别是关于搜索引擎索引、数据加密和信息检索技术的应用。这种技术通常涉及到网络通信安全、...

    人工智能-项目实践-搜索引擎-简易的博客搜索引擎后续有时间优化

    这个搜索引擎可能是针对博客内容进行索引和检索的,旨在帮助用户快速找到他们感兴趣的信息。接下来,我们将深入探讨相关知识点。 一、人工智能在搜索引擎中的应用 人工智能在现代搜索引擎中扮演着关键角色,尤其是...

Global site tag (gtag.js) - Google Analytics