`
dazuiba
  • 浏览: 131397 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

google 实时索引?!

阅读更多
刚刚发上一个帖子http://www.iteye.com/topic/146928,不经意用google 搜索了 rails 2 chm。
结果,这个刚刚发布的帖子,已经收录到了google中。
google是如何如此快速的收录网页的?
1 通过rss订阅?
2 还是javaeye的结构比较google friendly? google 只需要每次抓取每个论坛的第一个页面?

第二个基本可以排除调,google再聪明,也无法判断哪个是第一个页面。

如果rss订阅是唯一途径的话,那baidu也太愚笨了,要尽快争夺rss市场呀!

RSS订阅在04年就已经很流行了,我到现在才逐渐明白它为什么被这么多的人吹捧。
它确实可以影响你的生活!很大地影响。
现在基本很少浏览网站了,我在google reader中订阅了几百个个自己感兴趣的rss,每天晚上9~11点是我的rss充电时间。


分享到:
评论
3 楼 QuakeWang 2007-12-08  
一个原因是Robbin说的PageRank缘故,还有一个我猜是Google对于更新频率比较高的网站,抓取的频率也比较高,我用Google的WebMaster工具看了一下,平均Google Bot每天查看JavaEye的页面达到了27,000多次,这样一篇文章出现后15分钟内就被Google收录也就不足为奇了。
2 楼 yehs220 2007-12-08  
不大可能是rss吧,应该只是凑巧
1 楼 robbin 2007-12-08  
因为JavaEye的pagerank比较高,所以google会抓取网页非常频繁,另外也可能JavaEye的URL比较规则,Google只需要按照:http://www.iteye.com/topic/xxxxx,做一个数字循环去抓,隔几分钟抓一下,应该是很简单的算法。

相关推荐

    脚本可在 48 小时内让您的网站在 Google 上建立索引.zip

    Google 索引脚本使用此脚本,您的整个网站可在 48 小时内被 Google 编入索引。无需技巧,无需黑客,只需一个简单的脚本和一个 Google API。重要的该脚本使用Google Indexing API,并且仅适用于具有JobPosting或...

    C++实现索引表

    可以使用诸如Google Test这样的测试框架进行测试。 总的来说,C++实现索引表涉及了数据结构、内存管理、面向对象编程和算法等多个方面,是一个很好的实践项目,可以帮助提升C++编程技巧和理解数据结构的应用。通过...

    google.rar_索引 JavaScript

    标题中的"google.rar_索引 JavaScript"提示我们这个压缩包包含了一个使用JavaScript编写的与Google搜索引擎API相关的项目。描述进一步证实了这一点,说明这是一个全站搜索程序,它利用了Google的搜索功能。从标签...

    别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!.rar

    ”揭示了一个重要的信息:谷歌正在研发一种新的搜索索引技术,称为DSI(可能是Deep Semantic Indexing,深度语义索引),它在信息检索的效率和准确性上超越了传统的“双塔”模型,并且在无需预先训练样本的情况下,...

    hbase二级索引

    HBase,作为一款分布式列式存储系统,广泛应用于大数据领域,尤其在实时查询场景下表现出色。然而,由于其原生不支持复杂的查询模式,尤其是多条件查询,因此二级索引成为了提高HBase查询效率的重要手段。二级索引在...

    一种基于MapReduce的分布式索引方法.pdf

    MapReduce最早由Google提出,它通过将任务分配到多台机器上来并行处理大规模数据集。MapReduce的工作主要通过Map函数和Reduce函数来完成。Map函数对输入的, value>键值对进行处理,并输出中间结果, value>。这些中间...

    ionic-字母索引-城市选择

    - ** Angular**:Angular是Google维护的一个前端框架,用于构建单页应用程序。它提供了数据绑定、依赖注入和组件化等特性,使得开发更加高效。 2. **字母索引功能** - **分组数据**:在城市选择场景中,我们需要...

    别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!.pdf

    别再双塔了!谷歌提出DSI索引,检索效果吊打双塔,零样本超BM25!.pdf

    电信设备-海量数据信息索引系统和索引构建方法.zip

    2. **分布式索引技术**:如HBase的RegionServer、Google的Bigtable、Apache Lucene/Solr的分布式搜索等,以及它们如何处理大规模数据的分布式存储和索引构建。 3. **数据压缩与存储优化**:讨论如何通过数据压缩减少...

    google-index-checker:使用 Node.js 扩展 Google 索引检查

    谷歌索引检查器使用 Node.js 扩展 Google 索引检查此脚本提供有关给定 url 的当前 Google 索引状态的准确报告。 它在results.csv文件上显示已Indexed或未Not Indexed 。 该脚本能够验证具有任何类型有问题的字符的...

    android字母索引效果

    在Android中,我们可以使用多种库来实现汉字转拼音,如Google的`libphonenumber`库或第三方库`Pinyin4j`。`libphonenumber`主要用于电话号码解析,但同时也提供了将汉字转换为拼音的功能。而`Pinyin4j`是一个Java库...

    Google Drive 目录索引.zip

    Google Drive 目录索引去索引Google Drive 目录索引功能部署在CloudFlare Workers的小程序。可以将Google Drive文件以目录形式上市,并直接连下载。流量走CloudFlare,网速由CloudFlare决定。演示...

    索引你的 Google Drive.zip

    Google Drive 目录索引结合Cloudflare Workers和Google Drive的强大功能,您可以在 Cloudflare Workers 上的浏览​​器上索引文件。index.js是Workers脚本的内容。版本1. Achrou/goindex-theme-acrou工作脚本(暗黑...

    MongoDB中唯一索引(Unique)的那些事

    关于什么是索引以及唯一索引这里就不做说明了,不清楚的可以自行谷歌或者百度。是什么引起我写这篇文章呢,这来自于之前项目中的一个问题。 我们用的是MongoDB数据存储用户信息,用户表中曾经用户注册是通过手机号...

    在oracle11g中DML语句对索引的影响[定义].pdf

    在案例中,当插入'baidu', 'google'时,可能因为新数据能够适应现有叶节点,所以没有导致叶节点数量的进一步增加,保持在126个。 插入操作对索引的影响不仅限于叶节点的增加和使用率变化,还包括索引的碎片化。...

    大数据经典书 带索引 pdf

    - MapReduce:最初由Google提出的一种编程模型,被Hadoop采用来实现分布式数据处理任务。 - Spark:基于内存的数据处理框架,提供了比MapReduce更快的处理速度,支持SQL查询、流处理等功能。 3. **数据查询与检索...

    leetcode中国-myfirstcode:我的第一个代码

    2:Google 开源项目风格指南 3: 刷题的总结Github网址: 题目索引: 题目索引: 鸡汤时刻: 时刻想一想,我离一个PL还有多远???!!! 如果想要获得别人想不到的快乐,那我准备好了承受别人忍受不了的痛苦么??? 牛逼的人这么...

    搜索神器Everything V1.2.1.371 绿色中文版

    和AVAFind一样,Everything 也是基于文件名索引的文件搜索引擎,Everything 仅在几秒间便完成了320G笔记本硬盘的索引,而AVAFind则需要好几分钟呢;相比Google桌面搜索、百度硬盘搜索或是Windows自身的搜索,这个...

    实体识别与倒排索引优化实验数据

    在处理"Amazon_small.csv"和"Google_small.csv"这类大量文本数据时,构建倒排索引能显著提高搜索效率。例如,当用户搜索特定商品时,通过倒排索引可以直接找到包含该搜索词的商品记录,而无需遍历所有记录。 实验...

    使用 Vue 构建的 Google Drive 索引,在 CloudFlare Workers 上运行.zip

    它允许你在 CloudFlare Workers 上部署“Google Drive 索引”以及许多额外功能顺便说一句,这不是从 GOIndex 修改,而是完全重写演示GOIndex 和 GDIndex 之间的区别前端基于 Vue.js图像查看器不需要打开新页面视频...

Global site tag (gtag.js) - Google Analytics