`

Internet Archive:10PB的数据看起来像什么?

阅读更多

日期:2013-5-31  来源:GBin1.com

Internet Archive:10PB的数据看起来像什么?

Internet Archive(互联网档案),也称作“网站时光倒流机”Wayback Machine,定期收录并永久保存全球网站上可以抓取的信息。对网站不同时期的历史资料进行研究,是互联网档案最大的价值。

网站时光倒流机Wayback Machine看上去很简单 - 不过是一个安装在网站上的插件,并且随时间推移,你可以看到它的副本。

但 是你只是看到了它简单的表面,并没有看到它为了维护这些档案,保存副本所必须的超大数量数据以及存储。导演Jonathan Minard的纪录片Internet Archive记录了在幕后是它如何(以及为何)努力的维护着我们如今看到的Internet Archive。

纪录片采访了Internet Archive的奠基者Brewster Kahle,讲述了关于档案背后的主意,以及让我们看到了存储了10PB数据的服务器,这些数据包括当前Internet Archive上存储的网站,书籍,电影,音乐以及电视广播的存档。

想要了解更多Internet Archive,请登陆Vimeo,观看更多视频介绍。

via Nelly@极客社区

来源:Internet Archive:10PB的数据看起来像什么?

0
0
分享到:
评论

相关推荐

    phpWordHandle.php

    解决ZipArchive::getFromName(): Invalid or uninitialized Zip object报错问题

    internet-archive:archive.org API 的流接口

    Internet Archive API提供了多种接口,包括搜索、获取元数据、下载内容等。其中,流接口允许开发者以流式传输的方式处理大文件,这在处理大量数据或下载大文件时特别有用,因为它可以避免一次性加载整个文件到内存中...

    ZipArchive源码 使用zlib压缩解压文件数据流

    本篇文章将深入探讨`ZipArchive`源码中涉及的核心概念、工作原理以及如何使用`zlib`进行文件数据流的压缩与解压。 首先,`ZipArchive`库主要实现了ZIP文件格式的标准,这是一种广泛使用的文件归档格式,支持多文件...

    influxdb-archive:从 InfluxDB 归档数据

    InfluxDB 是一款开源的时间序列数据库,专为处理大量实时数据而设计,广泛应用于监控、IoT、大数据分析等领域。归档数据在 InfluxDB 的上下文中是指将不再需要频繁查询但仍然重要的历史数据存储在较低成本的存储介质...

    ZipArchive 解压zip

    - **数据备份与迁移**:开发者可以使用ZipArchive将应用程序的数据和配置文件打包,方便用户备份或在不同设备之间迁移。 - **软件分发**:软件开发者可以将所有必要的文件和资源打包成ZIP,提供给用户下载,减少网络...

    oracle11g flashback archive 资料整理

    Flashback Archive 可以实现对特定数据表的闪回,保留不同时间的数据镜像,并设置保留时间。通过设置 Flashback Archive,可以实现数据表的自动闪回,提高数据恢复的效率和可靠性。 Flashback Archive 的特点: 1....

    Archive::Rar (perl)-开源

    **标题:“Archive::Rar (perl) - 开源”** **描述:**“在Perl中管理rar文件。”这个描述指的是一个Perl模块,名为`Archive::Rar`,它允许Perl程序员处理RAR文件格式,这种格式通常用于压缩和归档多个文件。`...

    archive数据集,免费下载

    【标题】"archive数据集,免费下载"指出的是一个可供用户免费获取的归档数据集。在IT领域,数据集是用于分析、学习或研究的数据集合,通常包含多个相关的文件或记录。"archive"可能指的是这个数据集是历史性的、存储...

    archive (11).zip

    标题 "archive (11).zip" 暗示这是一个压缩文件,通常用于存储多个文件或文件夹以便于传输和管理。在IT领域,压缩文件格式如.zip是常见的数据归档方式,它通过算法减小文件大小,从而节省存储空间和提高上传下载速度...

    Archive:数据结构和算法模板

    在"Archive-master"这个压缩包中,你可以找到以上各类数据结构和算法的Java实现代码,通过阅读和实践,可以加深对这些概念的理解,提升编程技能。同时,这样的代码库也是准备计算机竞赛或面试的宝贵资料,帮助你在...

    cfs_archive:cfs_archive

    cfs_archive :StorNext 群集文件系统存档实用程序 用于在 StorNext 群集文件系统 (CFS) 和库上存档数据的应用程序。 客观的 StorNext 集群文件系统 (CFS) 可能非常庞大:数 PB 和数十亿个文件。 StorNext 的独特...

    PHP自带ZIP压缩、解压缩类ZipArchiv用法指南_.docx

    1. ZipArchive::open() 方法:用于打开一个 ZIP 文件,以便进一步操作。该方法需要两个参数,第一个参数是 ZIP 文件的名称,第二个参数是标志位,用于指定 ZIP 文件的操作模式。ZIPARCHIVE::OVERWRITE 总是创建一个...

    Archive Archive

    【标题】"Archive Archive"可能是指一个关于归档和存储技术的主题,这通常涉及数据管理和保护方面的知识。在IT行业中,归档是一个重要的概念,它指的是将不再频繁使用的但仍然需要长期保存的数据进行有序存储的过程...

    使用ZipArchive解压

    在IT行业中,压缩和解压缩文件是常见的操作,特别是在数据传输、存储优化和软件分发等领域。本篇文章将深入探讨如何使用PHP中的ZipArchive类来解压文件,这对于Web开发人员来说是一项重要的技能。 首先,ZipArchive...

    archive-2.9.0.xx-e37-SNAPSHOT.zip.002.zip

    archive-2.9.0.xx-e37-SNAPSHOT.zip.002.zip

    Internet存档的Scraping-The-Internet-Archive:一个Python程序,使用从Internet Archive Wayback Machine抓取的数据分析媒体趋势

    --- python程序,使用从Internet Archive / Wayback Machine抓取的数据分析媒体趋势--- 永乐通 2020年2月25日上午,在德国史威士博物馆(Werde die erste Coronainfektion)中。 病毒感染者的身分不合时宜,在未婚的...

    PB API文件属性设置

    在IT行业中,文件属性是操作系统用来管理文件的关键信息,它包含关于文件的元数据,如创建日期、修改日期、访问权限、隐藏状态等。在Windows系统中,编程接口(API)提供了对这些属性进行设置和获取的方法。"PB API...

    locale-archive 和 locale-archive.tmpl

    在Linux操作系统中,`locale-archive`和`locale-archive.tmpl`是两个非常关键的文件,它们与系统的国际化(Internationalization,简称i18n)和本地化(Localization,简称l10n)设置密切相关。`locale`是系统用来...

    stm32f10x_fw_archive

    STM32F10x_FW_Archive 是一个包含ST Microelectronics官方提供的STM32F系列微控制器相关的所有应用笔记和固件的集合。这个压缩包是开发者和工程师深入理解和使用STM32F微控制器的重要资源库,特别是对于基于Cortex-...

    archive:您的个人自以为是的面向独立网络和微格式的 HTML 存档器

    用法使用安装: ./composer.phar require taproot/archive:~0.1创建存档将基本路径传递给构造函数——这是存档的根。 <?php$ archive = new Taproot \ Archive (__DIR__ . '/data/' );归档 URL 归档 URL 的方法...

Global site tag (gtag.js) - Google Analytics