作者: Fenng
|
可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.dbanotes.net/database/internet_archive_storage.html
Internet Archive
(IA) 这个站点大家应该都不陌生。IA 旨在建立所有互联网站点的"档案库",如果说 Google 是互联网的数据库的话,那么 IA 就是互联网的数据仓库了,定期对每个 Web 页面保存快照,数据量之大可想而知。
先看看 IA 每天需要面对的处理能力:
存储超过 850 亿个 Web 页面;
每天大约 600 万次的下载;
Wayback Machine
收到大约 1000 万次点击,每秒钟要处理 100-200 个点击;
每天10万次左右通过 URL
查找;
每天 400 万次返回请求;
存储的内容包括本文、音频、视频...等各种 Web 可见的格式。
显然 IA 需要的是一种前所未有的存储解决解决方案--廉价、可靠、低功耗...总之用起来要省钱。IA
的志愿者不得不考虑自己动手建立符合他们需要的存储系统,这下子可不简单,2004 年,第一个 100GB 容量的近线存储投入使用 。IA
的志愿者之一 Saikley 干脆抽身而出成立了 Capricorn Technologies
公司,专为类似组织提供存储解决方案。前面提到的 100TB 容量的产品即为该公司 GB
系列的产品。现在 IA 已经采用 PS(PowerStore) 系列的 PetaBox,是量身定做的,装机容量 1.5T,目前容量已经超过
3PB(怕是远远超过 3PB 了)。PS 系列产品每节点原始容量可以达到 3T,使用日立 Deskstar 硬盘,仅仅占 1U
的机柜空间。IA 也在站点上介绍了定制的这台 PetaBox 的一些规格要求以及参数
。
PetaBox 也是 Linux 在企业级应用取得成功的一个范例。
PetaBox 存储产品给存储界带来了不小的震撼。每 GB
的成本仅仅是 2 美元。这还是 2005 年的价格
,现在应该更便宜了。搜索了一下,这家公司目前还没有进入中国。
PetaBox 系统通过一个集中式的 PXE 启动服务器运行在 Debian 或是 Fedora Linux ,通过 Nagios
进行整个环境的监控。 管理成本也并不高--每 PB 一个人。
分享到:
相关推荐
【标题】"Archive Archive"可能是指一个关于归档和存储技术的主题,这通常涉及数据管理和保护方面的知识。在IT行业中,归档是一个重要的概念,它指的是将不再频繁使用的但仍然需要长期保存的数据进行有序存储的过程...
在Linux操作系统中,`locale-archive`和`locale-archive.tmpl`是两个非常关键的文件,它们与系统的国际化(Internationalization,简称i18n)和本地化(Localization,简称l10n)设置密切相关。`locale`是系统用来...
在iOS平台上,开发人员经常需要处理文件的压缩与解压缩操作,以便于数据传输、存储优化或备份。ZipArchive是一个常用的开源库,它为iOS应用提供了便捷的ZIP文件管理功能。本文将详细介绍如何使用ZipArchive进行文件...
首先,`ZipArchive`库主要实现了ZIP文件格式的标准,这是一种广泛使用的文件归档格式,支持多文件的压缩存储。`ZipArchive`提供了一套API,使得开发人员能够方便地对ZIP文件进行创建、读取、修改和删除等操作。 `...
本文档主要讨论了在EMC VNX存储上使用server_archive应用工具的相关内容,server_archive是一种备份应用工具,主要用于执行本地备份和恢复操作,以及进行文件系统拷贝和磁带驱动器测试。 在EMC VNX存储上使用server...
互联网档案馆(Internet Archive)是一个非盈利的数字图书馆,致力于保存并提供访问网络上的各种资源,包括网页、图书、软件、音乐等。它的API允许开发者通过编程方式检索和访问这些丰富的资源。本文将深入探讨如何...
【标题】:“Archive”指的是与存档或归档相关的主题,这通常涉及到文件的压缩、存储和管理。在IT行业中,存档是一个重要的概念,它允许用户高效地存储大量数据,减少磁盘空间的占用,并方便日后检索。 【描述】:...
在EMC VNX 8存储上使用server_archive应用工具的知识点涉及了EMC® VNX® Series存储系统、server_archive工具的使用以及数据备份和恢复的概念和操作流程。EMC VNX Series是EMC公司推出的一款中高端存储系统,它具备...
Internet Archive Video Downloader是一键下载视频的最佳方法! 该扩展程序非常易于使用-您只需单击“下载”按钮,几秒钟之内即可开始将视频下载到PC并随时进行查看! 特点:✓只需单击一下即可轻松使用和保存视频!...
阿里云存储产品线丰富多样,包括对象存储OSS(Object Storage Service)、块存储EBS(Elastic Block Store)、文件存储NAS(Network Attached Storage)以及归档存储Archive。这些产品针对不同的数据存储需求和工作...
2. **阅片功能**:Slider DICOM ARCHIVE SCP不仅是一个存储服务器,还具备阅片功能。用户可以通过该软件查看接收到的DICOM图像,进行诊断分析。它可能包括常见的阅片工具,如窗口/层次调整、测量工具、缩放和旋转等...
本文将对阿里云对象存储 OSS 的存储分层类型进行详细介绍,包括 Standard、IA 和 Archive 三种类型,并根据不同的数据特点和访问频率,选择合适的存储类型,降低存储成本,提高数据访问效率。 Standard 存储类型 ...
《Delphi 5中的Zip Archive技术详解》 在软件开发领域,数据的压缩与解压缩是常见的需求之一,尤其在传输大量数据或者存储空间有限的情况下。Delphi 5作为一个经典的面向对象的编程环境,提供了丰富的库支持,其中...
internetarchive, Archive.org的python 和 命令行 接口 用于 Archive.org的python 和命令行接口 这个软件包安装一个名为 ia的命令行工具,使用命令行中的Archive.org 。 它还安装了 internetarchive python 模块为 ...
.NET Framework 4.5 引入了 ZipArchive 类,为开发者提供了一种便捷的方式来处理 ZIP 压缩文件。在 ASP.NET 开发中,我们经常需要处理文件操作,包括文件的压缩与解压缩。ZipArchive 类正是为了满足这种需求而设计的...
### Oracle 11g 中 log_archive_dest, log_archive_dest_n 和 standby_archive_dest 参数详解 #### 一、引言 在Oracle数据库中,归档日志是实现数据恢复的关键组件之一。为了确保系统的高可用性和灾难恢复能力,...
Saikley曾参与了Internet Archive的技术团队,他们因无法找到满足海量存储需求的现成解决方案,从而自主研发了这种低成本、低能耗的存储方法。 Capricorn Technologies在评估各种硬盘后,选择了日立Deskstar硬盘,...
在IT行业中,压缩和解压缩文件是常见的操作,特别是在数据传输、存储优化和软件分发等领域。本篇文章将深入探讨如何使用PHP中的ZipArchive类来解压文件,这对于Web开发人员来说是一项重要的技能。 首先,ZipArchive...
首先,`archive-1.0.5.jar`是该插件的编译后版本,它包含已编译的Java类和其他资源文件,可供Openfire在运行时加载和执行。这个JAR文件是实际部署到Openfire服务器上的组件,用于处理和存储聊天记录。 `archive-...
总结来说,"Archive-Tar-2.08.tar.gz" 是一个使用tar工具创建并由gzip压缩的归档文件,主要用于存储和分发源代码或数据。了解如何正确处理这种类型的文件对于在Linux或Unix环境中工作的IT专业人员至关重要。同时,它...