阅读更多

0顶
0踩

互联网
引用

原文:Google shares data center security and design best practices
作者:Joe Kava
翻译:孙薇

在首次云端平台使用者大会(Google Cloud Platform Global User Conference)上,谷歌的两位领导者——数据中心的运营副总裁Joe Kava和安全隐私方面的优秀工程师Niels Provos向与会者分享了谷歌在全球范围内设计、构建、运行和保护数据中心的实践方式,其中包含一些令谷歌的数据中心独一无二的秘诀,及其对于谷歌云端平台用户的意义。

安全性和数据保护
谷歌一直以来将重心放在数据的安全和保护上,这也是我们的关键设计准则之一。在物理安全方面,我们以分层安全模型为特色,使用了如定制的电子访问卡、警报器、车辆进出限制、围栏架设、金属探测器及生物识别技术等保障措施。数据中心的地板配备了激光束入侵探测器,并安装了高清晰度的内外监视器,全天候检测追踪入侵行为。此外为以防万一,可随时调用访问日志、活动记录以及监控录像。

同时数据中心还安排了经验丰富的保安人员每日例行巡逻,他们已接受过背景调查与严格的培训(可以点击查看数据中心的360度视频)。越靠近数据中心,安全措施系数就越高,只有一条安全通道能进入数据中心,通过安全徽章和生物识别技术来实现多重访问控制,只有特定职位的员工才有权进入。在整个谷歌公司,只有不到1%的员工曾踏足此区域。

我们还采用了非常严格的点对点监管链,用于储存、追踪全过程——从第一次HD输入机器直至证实其已被销毁或清除。同时,我们采用了信息安全和物理安全双管齐下的方式,由于数据通过网络传输的特性,若未经授权可随意访问的话就会非常危险。有鉴于此,谷歌将数据传输过程中的信息保护摆在优先位置上,用户设备与谷歌间的数据传输通常都是利用HTTPS/TLS(安全传输层协议)来进行加密输送。谷歌是第一个默认启用HTTPS/TLS的主要云服务提供商。



谷歌自建硬件和监测系统
谷歌的服务器不包括那些不必要且会产生漏洞的组件,比如显卡、芯片组、外围连接器。谷歌的生产服务器运行着基于Linux精简版和硬化版定制的操作系统,且这些服务器和操作系统只为谷歌一家提供服务。服务器的资源是动态分配的,允许灵活增长与快速高效地适应,同时还能根据客户的需求来添加或重新分配资源。

团队还必须在谷歌的基础架构状态与功能上增加先进的实时可视性功能。众所周知,谷歌在数据方面极度用心。为了协助团队,谷歌已为所有的功能区域配备了监测与控制系统,包括服务器、存储、网络系统、配电房、机械冷却系统以及安全系统——我们全方位地对“从芯片到冷却装置”的性能和操作进行监测。

利用机器学习来优化数据中心操作系统
为了努力实现这一目标,我们利用机器学习和深度学习算法来优化数据中心的操作系统。正如想象的那样,我们的数据中心内部大而复杂,所有电气、机械和控制系统协力只为提供最优性能。对常人而言,由于系统之间的交互信息与可能的设置十分复杂,很难想象怎样实时优化数据中心;但对于电脑来讲,运算这些可能的情境并找到最佳设置简直小菜一碟。

过去几年内,我们开发出了这套算法,并使用全世界谷歌网站数以亿计的数据点对其进行了训练。我们现在利用这个机器学习模型帮助数据可视化,以便运营团队为数据中心配置电力与冷却装置,以确保指定时间的性能达到最优最高效(考虑到影响性能的自变量多达19个),帮助团队找出难以一眼发觉的不连续或者效率不高的数据点。

以可再生能源为动力
在能源方面,我们致力于利用可再生能源来为基础设施提供动力,谷歌在可再生能源方面是全世界最大的私人投资者。截至目前,谷歌已经在可再生能源的“能源采购标准协议”上投入了超过20亿美元,这些协议重要的原因在于:
  • 谷歌计划在未来10-20年间继续投资购买风能和太阳能;
  • 这些风电场和谷歌数据中心有着相同的电网系统;
  • 风电场和数据中心共享电网系统,为项目开发人员提供建立项目所需的财务保证,因此我们明白:除了可再生能源之外,不会再通过其他方式来发电。

冷却方面,平均每12-18个月我们会对基本的冷却技术进行重新设计。通过这种方式,我们所开发的水冷系统在创新上占据领先地位,使用水源包括海水、工业大坝水、回收水及灰水(污染较轻的生活用水)、收集重用的雨水,并涉及了热能储存。此外我们还设计了不使用水冷系统的数据中心,这种系统100%依靠室外空气自然冷却。关键是:并没有“一体适用”的解决方案,每个数据中心会根据特定的位置设计出适合自己的冷却方案,以求能达到最高性能和最高效率。

数据中心由谷歌自行运营,不通过第三方
设计与建立方面的行业规范削减了对用户手册和图纸的需求,直通正确的解决方案,运营者无需凭借侥幸。一般来讲,运营团队受雇于低价揽活的外包商,而不是业主本身,但在谷歌并非如此,我们有自己的雇员来管理、运营数据中心。在运营时有这样的惯例:问题和错误常在午夜出现——通常是周日的午夜,因为那时没人随时待命处理问题。



工程师+运营团队的组合
对于所雇的员工和他们运营数据中心的方式,我们采取了不同的态度:工程师和运营专家的背景各不相同,但却有个共同点——他们都是系统思考者。团队的很多成员有关键业务方面的背景,比如美国海军核潜艇项目,在这些项目中,任何错误都会酿成灾难性后果,因此他们很懂系统的交互方式。此外,谷歌在所有数据中心园区还成立了区域站点团队,由负责设计和施工的工程师及运营团队共同组建而成,这些综合团队共同负责构建、调试系统以及提供全天候运营服务,从而赋予了我们对基础架构无与伦比的自治权。
  • 大小: 32.3 KB
  • 大小: 41.1 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 【企业架构设计实战】大数据架构最佳实践

    一个企业的数字化核心是数据,数据化的价值依赖于数据的标准和质量,数据对一个企业来说至关重要,它也是整个信息化建设及企业架构的核心。数据具有多样性,有结构化的、非结构化的,与业务相关的、与系统相关的,...

  • 【翻译】2020年云安全综合指南(风险,最佳实践,认证)

    首先,确定合适的云服务提供商,然后实施结合了合适的工具,流程,策略和最佳实践的战略。 了解您的共同责任并专注于合规性是基础。 在云安全中,您的员工(或您的云提供商)是防御网络犯罪分子的最关键且经常被忽视...

  • 鸟哥谈云原生安全最佳实践

    2022年6月7日,在CSDN云原生系列在线峰会第7期“安全技术峰会”上,鸟哥谈安全公众号作者、某互联网公司云化办公安全架构师鸟哥分享了Google、阿里巴巴的云原生安全最佳实践。

  • 云计算:从基础架构原理到最佳实践之:云计算架构设计与规划

    云计算是指利用网络将地理分布的计算机系统、存储设备、应用服务等资源集合起来,通过软件控制其自动化执行,并按需提供所需的计算能力、存储空间及其他资源,实现信息的高速、低成本、弹性可靠地流动和共享。...

  • 云计算最佳实践

    作者:禅与计算机程序设计艺术 1.简介 1.1什么是云计算 云计算(Cloud computing)是一种基于网络的基础设施服务模型,它将服务器、存储和网络等IT资源通过网络聚合到一起,以简单易用的方式提供给用户使用。云计算...

  • [数据挖掘、数据分析] clickhouse在go语言里的实践

    下面我们从clickhouse的起源、OLAP/OLTP、go语言开发实践、clickhouse的表存储引擎分析这几个方面,讲解clickhouse为何适合做大数据分析、数据挖掘,什么情况下用什么样的表引擎,以及clickhouse的缺陷等。

  • 谷歌原数据保护团队技术主管:零信任实践分享

    本文作者2015至2020年有幸参与了谷歌生产环境零信任(Zero Trust in Production Environments)的理论和实践。在此背景下开发的Binary Authorization for Borg(BAB) 系统已经在谷歌生产环境中实现了全面覆盖:任何...

  • 云计算:从基础架构原理到最佳实践之:云计算大数据分析与处理

    笔者认为,《云计算:从基础架构原理到最佳实践之:云计算大数据分析与处理》一书可以作为云计算从基础原理到最佳实践的一本专业技术书籍,系统阐述了云计算大数据分析与处理的技术原理、方法论、核心组件,并且以...

  • Lighthouse的使用与Google的移动端最佳实践

    Lighthouse会对各个测试项的结果打分,并给出优化建议,这些打分标准和优化建议可以视为Google的网页最佳实践。 使用入门 运行Lighthouse的方式有三种:在开发者工具(Devtools)的Audits,作...

  • 从传统应用程序迁移到云原生:最佳实践和挑战

    作者:禅与计算机程序设计艺术 在现代企业应用架构中,应用程序往往作为整个业务线的支柱之一。许多公司都在追求更高效、更简洁、更可靠的架构,并逐渐将传统应用系统迁移到基于云平台的容器化部署模型。其中一种...

  • 企业级大数据处理实践——基于 Apache Flink

    大数据领域正在经历一个百花齐放、...本文将从基础知识出发,通过Flink平台的实践案例,帮助读者搭建起真正可用的企业级大数据平台,并理解其内部运行机制,进而运用到实际工作场景中,有效提升公司效率和产出。

  • 2023年网络安全面试题(渗透测试):详细答案解析与最佳实践分享

    如果在数据来源和网络分享方面存在侵权问题,请立即联系我以删除相关内容。 一、一句话木马 1、基本原理 通过利用存在文件上传漏洞的目标网站,将恶意的一行代码或脚本(通常是PHP语言)上传到目标服务器上,从而...

  • 数据中心

    本章将介绍数据中心的概念,数据中心的发展历史,数据中心的组成单元-服务器,以及数据中心的选址及能耗问题。 一、数据中心的概念 数据中心是全球协作的特定设备网络,用来在Internet这一网络基础

  • 数据安全分类分级剖析

    数据分类分级对于数据的安全管理至关重要,安全分类分级是一个“硬核课题”,从数据治理开始,除了标准化和价值应用,重要的课题就是质量+安全。安全是底线,是价值应用的前提和基础。数据分类可以为数据资产结构化...

  • 云计算:从基础架构原理到最佳实践之:云计算备份与灾难恢复

    2.3.2 全球多中心部署 在云计算平台上部署多个数据中心,可以将业务容灾范围扩展到全球。然而,这也带来另一个问题——网络带宽不足的问题。为了解决这个问题,云计算平台会引入边缘计算节点,将计算任务集中到离...

  • 数据中心 PUE 优化模型生成服务:AI 浪潮下的数据中心的省钱攻略,就用这几招

    一般来说,数据中心 3 年的电费可以再造一个数据中心,因此...AI 调控的是数据中心制冷系统,不仅要控的好能节能,还要控的安全。本文我们将分享华为 NAIE 数据中心 AI 节能技术,以及如何支持技术在不同局点的复制。

  • 将数据迁移到云端的最佳实践

    就当前而言,移动PB级的数据对企业来说仍然是一件难事,可以按照以下步骤来操作,尽量减少风险和成本,并最大程度地提高灵活性。 接受云部署的企业需要具有成本效益和实用性的将企业数据迁移到云端的方法。鉴于将大...

  • 这次,AMD又将数据中心标准提高了一大截

    两年前,AMD发布了欲重新夺回数据中心优势的EPYC(霄龙)处理器,(详情请见《让业界震惊的EPYC究竟什么样?》一文),其超高的性能令业界为之侧目,令竞争对手感到不安,一举奠定了AMD在数据中心市场的地位。 两...

  • 基于springboot大学生就业信息管理系统源码数据库文档.zip

    基于springboot大学生就业信息管理系统源码数据库文档.zip

Global site tag (gtag.js) - Google Analytics