[虚拟化应用] 深入分析云存储中虚拟化技术构成及应用
虚拟存储技术及其应用_电信网络
如何用Java平台访问开源云存储?
尽管云计算这一术语并不新鲜(Amazon在2006年就开始提供它的云服务),但从2008年起它才开始真正成为流行词,这期间,Google和 Amazon的云服务逐渐获得了公众的关注。 Google的App Engine使用户能够在Google基础设施上构建和托管 Web 应用程序。
连同S3,AmazonWeb Services还包括Elastic Cloud Compute (EC2)计算Web服务,该服务可以在Amazon的基础设施上托管应用程序。其他公司也开始蠢蠢欲动,准备与Amazon和Google一决高下,其 中就包括 Microsoft®的 Azure,甚至 Sun Microsystems(其云计算还没有正式推向市场)也想分一杯羹。例如IBM最近宣布,它将提供某些产品供开发人员在AmazonEC2 环境中使用。
AmazonSimple Storage Service (S3)是一个公开的服务,Web应用程序开发人员可以使用它存储数字资产,包括图片、视频、音乐和文档。S3提供一个 RESTful API以编程方式实现与该服务的交互。通过本文,您将了解如何使用开源的JetS3t库利用Amazon的S3云服务存储和检索数据。
面向开源的S3云平台介绍
云是一个抽象的概念,表示松散连接在一起的计算机组,这些计算机共同执行某项任务或者服务,就像是使用一个单独的实体完成一样。此概念背后的架 构也很抽象:每个云提供者都可以根据各自情况随意设计它的产品。软件即服务(Software as a Service,SaaS)是一个与云相关的概念,表示云向用户提供某种服务。云模型可以降低用户成本,因为他们无需购买软件和硬件也可以运行 — 服务提供者已经为用户提供了必要的组件。
以Amazon的S3产品为例。顾名思义,这是一个公开的服务,使 Web 开发人员能够存储数字资产(如图片、视频、音乐和文档等),以便在应用程序中使用。使用S3时,它就像一个位于 Internet 的机器,有一个包含数字资产的硬盘驱动。实际上,它涉及到许多机器(位于各个地理位置),其中包含数字资产(或者数字资产的某些部分)。Amazon还处 理所有复杂的服务请求,可以存储数据并检索数据。您只需要付少量的费用(大约每月 15 美分 /GB)就可以在Amazon的服务器上存储数据,1 美元即可通过Amazon服务器传输数据。
Amazon的S3服务没有重复开发,它公开了RESTful API,使您能够使用任何支持 HTTP 通信的语言访问S3。 JetS3t项目是一个开源Java库,可以抽象出使用S3的RESTful API的细节,将API公开为常见的Java方法和类。编写的代码越少越 好,难道不是吗?充分利用其他人的成果也是不错的。在本文中您将看到,JetS3t使S3和Java语言的工作变得更加简单,从根本上提高了效率。
S3开源应用模式介绍
理论上,S3是一个全球存储区域网络(SAN),它表现为一个超大的硬盘,您可以在其中存储和检索数字资产。但是,从技术上讲,Amazon的 架构有一些不同。您通过S3存储和检索的资产被称为对象。对象存储在存储段(bucket)中。您可以用硬盘进行类比:对象就像是文件,存储段就像是文件 夹(或目录)。与硬盘一样,对象和存储段也可以通过统一资源标识符(Uniform Resource Identifier,URI)查找。
例如,在我的硬盘中,我有一个名为 whitepaper.pdf 的文件,它位于主目录中名为 documents 的文件夹中。相应的,该pdf文件的URI为/home/aglover/documents/whitepaper.pdf 。在S3中,URI有一点不同。首先,存储段只能是顶级的 — 无法像嵌套硬盘中的文件夹(或目录)一样进行嵌套。其次,存储段必须遵循 Internet 命名法则;句点旁边没有斜杠,名称不包括下划线等等。最后,由于存储段名称已经是Amazon域内的 (s3.amazonaws.com) 公共URI的一部分,存储段名称必须在所有S3中是惟一的。(好消息是每个帐户只能包含 100 个存储段,因此不用担心别人占用了所有的好名字)。
存储段在S3中是URI的根。也就是说,存储段的名称将是指向S3中某个对象的URI的一部分。例如,如果我有一个名为 agdocs 的存储段以及一个名为 whitepaper.pdf 的对象,URI将是:http://agdocs.s3.amazonaws.com/whitepaper.pdf 。
S3还提供了指定存储段和对象的所有者和权限的能力,就像对待硬件的文件和文件夹一样。在S3中定义对象或存储段时,您可以指定一个访问控制策 略,注明谁可以访问您的S3资产以及如何访问(例如,读和写权限)。相应地,您可以通过许多方式提供对您的对象的访问,使用RESTful API只是其 中一种。
这里Amazon有一个神奇的DNS魔术,用户不用担心S3资产的 URL 。通过 Domain Name System (DNS) 和 CNAME(canonical name的缩写)记录,您可以将自定义程度更高的 URL 映射到S3的 URL 。这样一来,您就隐藏了您(或您的应用程序)依赖S3的事实!
开始使用开源S3和JetS3t
要开始使用S3,您需要一个帐户。S3不是免费的,因此在创建帐户时您必须向Amazon提供一种支付手段(比如信用卡号码)。不用担心:不收初装费;您只需要为使用付费。对于本文的示例,只需要支付不到 1 美元的费用。
在创建帐户的过程中,您还需要创建凭据:访问密钥和秘密密钥(就像用户名和密码)。(您还可以获取 x.509 证书;但是,只有在使用Amazon的 SOAP API时才需要使用该证书)。和任何访问信息一样,都必须保管好您的秘密密钥。因为任何人使用您的凭据访问S3时,您都将为此付费。因此,每当创 建存储段或对象时,默认的行为是让所有内容都私有;您必须显式获取对外部世界的访问。
有了访问密钥和秘密密钥,您可以下载 JetS3t并使用它通过RESTful API与S3交互。
使用编程手段通过 JetS3t 登录S3可以分为两步。首先,必须创建一个 AWSCredentials 对象,然后将它传递到 S3Service 对象。AWSCredentials 对象非常简单。它将访问密钥和秘密密钥视为 String。S3Service 对象实际上是一个接口类型。因为S3同时提供RESTful API和一个 SOAP API,JetS3t 库可以提供两种实现类型:RestS3Service 和 SoapS3Service。就本文而言(包括大部分S3事务),RESTful API的简洁性让它成为一个很好的选择。
创建一个连接的 RestS3Service 实例很简单,如清单 1 所示:
步骤 1. 创建一个 JetS3t 的 RestS3Service 实例
def awsAccessKey = "blahblah"
def awsSecretKey = "blah-blah"
def awsCredentials = new AWSCredentials(awsAccessKey, awsSecretKey)
def s3Service = new RestS3Service(awsCredentials)
现在可以执行一些有趣的操作了:例如,创建存储段、添加一个影片,然后获取一个有时间限制的URL 。实际上,这听起来像一个业务流程,不是吗?这是一个与发布有限资产(比如影片)有关的业务流程。
创建存储段
对于虚构的电影业务,我将创建一个称为 bc50i 的存储段。借助 JetS3t,该流程很简单。通过 S3Service 类型,您有几个选项。我更喜欢使用 getOrCreateBucket 调用,如清单 2 所示。顾名思义,调用该方法可能返回一个存储段实例(表示为 S3Bucket 类型的实例)或在S3中创建代码段。
S3平台详细使用步骤简介
步骤 2. 在S3服务器上创建存储段
def bucket = s3Service.getOrCreateBucket("bc50i")
不要被我这个简单的代码示例所蒙蔽。JetS3t 库的扩展性非常强。例如,您可以快速确定拥有多少存储段 —— 只需通过 listAllBuckets 调用请求一个S3 Service 实例即可。该方法返回一个 S3Bucket 实例数组。对于任何存储段实例,您可以询问它的名称和创建日期。更重要的是,您可以通过JetS3t 的 AccessControlList 类型控制与之相关的权限。例如,我可以获取 bc50i 存储段实例,并允许任何人可以公开读取和编写,如清单 3 所示:
步骤 3. 修改存储段的访问控制列表
def bucket.acl = AccessControlList.REST_CANNED_PUBLIC_READ_WRITE
当然,通过 API,您也可以随意删除存储段。Amazon甚至允许您指定创建存储段的地理位置。Amazon简化了存储实际数据的复杂性,但是您可以告诉Amazon要将存储段(及其内部所有的对象)放在美国或欧洲(当前可用选项)。
向存储段添加对象
使用JetS3t 的API创建S3对象就像操作存储段一样简单。JetS3t 库也很智能,可以负责处理与S3存储段内文件相关的内容类型。例如,我想向S3上传一段影片nerfwars2.mp4,以便用户能够在有限的时间内观 看。创建一个S3对象与创建常见的 java.io.File 类型一样简单,并能将S3Object 类型与存储段关联,如清单 4 所示:
步骤 4. 创建一个S3对象
def s3obj = new S3Object(bucket, new File("/path/to/nerfwars2.mp4"))
使用文件和存储段初始化 S3Object 之后,要做的所有事情就是通过 putObject 方法上传,如清单 5 所示:
步骤 5. 上传影片
s3Service.putObject(bucket, s3obj)
使用清单 5 可以完成上传。现在影片位于Amazon服务器了,影片的键就是它的名称。当然,您可以根据需要重写该名称以调用其他对象。实际上,JetS3t API(以及 AmazonS3RESTful API)公开了许多信息,供您创建对象时使用。我们知道,您还可以提供访问控制列表。S3中的任何对象都可以保存API允许您创建的其他元数据。之后可以 通过该元数据的S3API(以及派生的 JetS3t)查询任何对象。
创建对象的URL
到现在为止,我的S3实例有一个包含影片的存储段。实际上,我的影片可以通过以下URI获 取:http://bc50i.s3.amazonaws.com/nerfwars2.mp4 。但是,只有我才能获取。(在本例中,我只能通过编程方式访问它,因为与所有内容关联的默认访问控制被设置为拒绝任何未授权访问)。我的目的是为选择的用 户提供一种方式查看新影片(在有限的时间内),直到我开始收取访问费用(S3也会提供帮助)。
创建一个公共 URL 是S3提供的一个便捷功能;实际上,使用 S3,您可以创建一个公共 URL,但只在一段时间内有效(例如,24 小时内)。对于我刚刚存储在S3服务器上的影片,我将创建一个 48 小时内有效的 URL 。然后我将向选定的用户提供该 URL,以便他们下载并观看(假定他们在两天内下载)。
处理带有效期的文件
要创建一个针对S3对象的时间敏感型URL,您可以使用 JetS3t 的createSignedGetUrl 方法,这是一个 S3Service 类型的静态方法。该方法采用一个存储段名称、一个对象键(在本例中是影片名,还记得吗?)、一些凭证(以 JetS3t 的AWSCredentials 对象的形式)、截止日期。如果您了解所需的存储段和对象键,则可以通过清单 6 中的 Groovy 代码快速获取 URL:
步骤 6. 创建一个时间敏感型URL
def now = new Date()
def url = S3Service.createSignedGetUrl(
bucket.getName(), s3obj.key, awsCredentials, now + 2)
使用 Groovy,我可以通过 + 2 语法轻松指定一个 48 小时的限定日期。得到的 URL 如下所示(只有一行):
https://bc50i.s3.amazonaws.com/nerfwars2.mp4?AWSAccessKeyId=1asd06A5MR2&Expires=1234738280&Signature=rZvk8Gkms=
如果您的带宽和存储需求不稳定,则S3能提供很多帮助。例如,想想我演示的业务模型 — 影片在一年中特定的时间发布。在传统的存储模型中,您需要在某处机架上购买许多空间(或提供通向它的硬件和管道),很可能下载量很大,但随后会相对降低。 但是,您不能根据需要付费。使用 S3,该模型将根据需要付费 — 公司仅在需要时为存储和带宽付费。更重要的是,S3的安全特性可以帮助您进一步指定人们何时可以下载视频,甚至可以指定谁可以下载。
使用S3实现这些需求非常容易。在高水平上,创建一个受限的影片公共下载需要 4 个步骤:
1.登录S3。
2.创建存储段。
3.向存储段添加所需的视频(或对象)。
4.创建一个指向该视频的时间敏感型 URL 。
就是这样!
使用后记:便利的按需付费模式
与传统存储模型相比,S3的随需付费模型有很多明显的优势。例如,在自己的硬盘上存储音乐收藏,我必须预先花 130 美元购买一个 500GB 的存储单元。我没有500GB 的数据可以存储,因此我为自己不需要的空间花费了 25 美分 /GB(虽然很便宜)。我还需要维护设备并支付电费。如果我使用 Amazon,我不需要预先为不重要的资产支付 130 美元。我只需要支付 10 美分 /GB,无需为管理和维护存储硬件付费。
现在想想在整个企业范围内实现这些服务的好处。以 Twitter 为例,在S3上为100 万个用户帐户存储图片。通过按照使用付费的方式,Twitter 不需要花费大量资金购买硬件基础设施来存储和提供图片服务,也不需要支出人力和部件成本来配置和维护图片。
云的好处还不止这些。您还可以实现低延迟和高可用性。假设存储在Amazon云中的资产遍布全世界,那么为各个位置提供内容的速度将会更快。更重要的是,由于您的资产分布在各种机器上,您的数据在一些机器(或部分网络)瘫痪时也能保持高可用性。
一言以蔽之,AmazonS3的好处很简单:低成本、高可用性、安全。除非您是一个 SAN 专家,喜欢维护硬件资产来存储数据内容,但是Amazon可能比您做的更好。在资金紧张的时候,为什么还要将自己的资金提前预支在硬件上呢(不要忘了,硬件会随时间贬值)?
分享到:
相关推荐
云存储是一种将数据存储在通过互联网访问的远程服务器上的技术,它已经成为现代信息化时代的核心组成部分。云存储的优势在于其灵活性、可扩展性、成本效益和易于访问性,使得企业和个人可以方便地存储和管理海量数据...
云存储是一种将数据存储在通过互联网访问的远程服务器上的技术,它使得用户可以从任何位置、任何设备上访问和管理自己的数据。随着信息技术的发展,云存储已成为企业和个人存储、备份、共享和处理大量数据的重要手段...
最新的snia会议资料 详细的介绍了snia的云存储接口规范及架构
砚云 阿里云高级产品专家在阿里云存储产品管理团队负责混合云存储相关的产品管理和规划工作,加入阿里云之前,在EMC,HPE,Google等公司担任产品管理以及解决方案架构师相关工作,拥有十多年的企业IT解决方案设计,...
**2.2 云存储相关技术** **2.2.1 技术前提** 为了实现高效的云存储服务,需要依赖一系列关键技术的支持: - **分布式文件系统**:如Google的GFS(Google File System),用于管理和组织大规模的文件数据。 - **...
云存储技术是一种基于云计算概念发展出的新型数据存储方式。在现代信息技术中,云存储扮演着越来越重要的角色。通过集群应用、网格技术、分布式文件系统或类似网格计算的功能,云存储能够将多个存储设备通过应用软件...
通过这样的毕业设计,学生不仅可以学习到云存储的基本理论,还能掌握实际操作和分析技能,对于未来从事云计算或相关领域的研究和工作有着重要的实践价值。同时,这也将培养学生的独立思考和解决问题的能力,以及团队...
在"云计算、云存储、云安全"的相关论文中,可能会探讨以下几个方面: 1. 云计算架构:研究云计算的不同层次及其相互作用,以及如何优化这些结构以提高效率和性能。 2. 云存储技术:深入分析不同类型的云存储系统,...
**正文** `Go-minio-go`,又称为`minio-go`,是Minio公司为Go语言开发的一个库,主要用于与Amazon S3兼容的云存储服务进行交互。...通过深入理解和熟练运用这个库,开发者可以更高效地构建云存储相关的解决方案。
《云存储客户端源码解析与应用》 云存储技术已经成为现代信息技术的重要组成部分,它通过互联网将数据存储在远程服务器上,使得用户可以随时随地访问和管理自己的数据。本篇将深入探讨“云存储客户端源码”的核心...
《云存储安全:大数据分析与计算的基石》一书系统地论述了云存储安全的基础知识与关键技术,并对如何在大数据时代保障云存储安全进行了深入研究,成为相关领域的一本优质参考书籍。 首先,云存储概述了云计算在存储...
《数据库与云存储》是信息技术领域中的核心课程,尤其对于北京邮电大学信息与通信工程学院(信通院)的学生来说,掌握这部分知识至关重要。这个2019级的复习题库包含了丰富的学习资料,旨在帮助学生充分准备考试。...
标题中的“行业分类-设备装置-支持紧急接入访问控制和安全去重的跨域医疗云存储系统”揭示了本文档的核心内容,它涉及到的是医疗行业中的一个特定领域——设备装置,特别是与云存储相关的技术。这个系统强调了两个...
这部分详细解释了云存储系统中的关键概念,如云存储系统、块存储、文件存储系统、对象存储系统等,以及相关缩略语如POSIX、CIFS、NFS,为后续的技术讨论奠定了基础。特别是对云存储系统、对象存储和配额等概念的定义...
高德地图云存储服务是高德地图API提供的一项功能,它允许开发者将地理位置相关的数据存储在云端,以便进行高效的数据管理和分析。这包括但不限于路线信息、位置点、轨迹数据等。云存储服务通常提供稳定、安全且易于...
此外,该解决方案还提供了一些相关的文档,例如《视频云存储容量计算工具》、《视频云存储配置清单》等,以便用户更好地理解和应用视频云存储解决方案。 通过该解决方案,用户可以获得一个完整的视频云存储解决方案...