阅读更多
美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。



基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一


今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。

云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因为基因组学研究中正面临着现实问题:如何获取数据库中的大量数据。这已经阻碍了科研人员的工作,尤其是当研究工作涉及到现有的数据信息时。

为了充分利用云计算技术所提供的便利,我们敦促NIH和其他科研资助机构在常用的云平台中免费提供基因组数据。这样全球数以千计的科研人员就不用浪费自己的时间和金钱将数据转移到自己熟悉的云平台,只要从这个统一的数据平台进行存储和分析就可以了。

大数据

随着基因组排序技术的提高,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比如国际癌症基因组联盟ICGC的数据库中不到五年时间就积累了从17个国家收集而来的超过2PB数据,这相当于50万张DVD的容量。

按一般大学的网速来算,将这些数据转移到研究人员自己的内部网络中需要花超过15个月。先不说处理,就单单存储这些数据的硬件就要花大概100万美元。

云计算为我们提供了计算资源上的弹性,研究人员可以需要多少计算资源就有多少计算资源。分析完成之后只需要为计算分析的一小段时间付费。科研人员之间也可以更好地进行分工合作,在虚拟机上就能轻松地分享数据和计算方法。以前要花上几个月的基因组数据分析现在可能只需要几天或者几周。(见下图)



时至今日,云服务的安全性已经胜过了研究机构自己的数据中心。提供云服务的既有亚马逊、谷歌和微软这样的商业企业,也有专注于基因组研究的小型公司,比如加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研究所。这些提供商采取加密和防火墙或密保卡等方式来控制数据的使用权,并为数据所有者提供监测数据使用的工具。

一些人类基因组学的主要资助机构还是对云计算持谨慎态度。如一些欧洲的资助机构就建议将基因组数据控制在自己的管辖范围内以遵守欧洲的隐私法律。但我们预计,基于云计算的经济性、灵活性、可靠性和安全性,未来几个月肯定会有向云平台的大规模迁移潮。NIH的决定无疑会加速这一过程,我们在此对NIH表示感谢。

现在让我们来看看如何在云平台用最少的花销达到最高的效率。



访问控制

科研人员想要从dbGAP等数据库中取得人类基因组数据,必须要经过数据访问委员会的批准。现在如果有不同的科研人员想要在云平台上使用同一数据集,他们各自必须得到相应的数据访问委员会批准。然后要将数据复制到自己的云平台才能开始工作。

所有这些科研人员都必须等着数据复制,也必须向自己使用的云平台支付费用。如果100组科研人员都这么做,那么这个过程很明显浪费了科研人员很多的时间和金钱。就算是可以随便把数据复制到自己的云平台,大多数科研人员恐怕也负担不起这一过程需要的时间和花销。

有一个更好的方式可以解决这个问题:相关的资助机构可以要求将主要的基因组数据集上传到常用的云平台中并支付存储的费用,这样所有数据只需要复制一次而且科研人员自己只需要支付进行分析时的一点点开销。

现在不少云计算提供商为科研数据提供极低价格的存储甚至完全免费以鼓励科研人员使用自家的云服务。亚马逊AWS为千人基因组计划提供免费存储(有超过200TB数据),Annai Systems也为一部分ICGC数据集提供免费存储。

假设迁移到云平台之后现在的数据库提供者和数据访问委员会的设置保持不变的话,在基因组云计算的范围内甚至可能诞生一个市场。比如提供了有价值数据的基因生物学家可以获得云计算平台的分析时间作为奖励。计算机科学家如果提供了可以提高分析效率的程序,也可以在别人运行它的程序时得到一定的回报。

经过一段时间这便会形成一个良性循环。这些大的数据集融合在一起可以令科研人员更快发现基因与疾病之间的联系,这反过来会鼓励更多人分享数据集或开发更强大的软件。

这种方式也有一定的风险。如果把所有数据都集中到同一个云计算平台,此云计算平台就会因为垄断而提价,而这些成本就会转嫁到科研经费中。为了避免这种情况发生,应该将重要的数据集放在多个云平台上。这也可以解决之前提到的欧洲资助机构的担忧,只要将欧洲所贡献的数据限制在欧洲的云服务提供商即可。

基因组学标准

当然要达到我们最终的目的还需要很多技术和法律方面的努力。比如现在囊性纤维变性研究人员完全不能通过软件在dbGap数据库中搜索病患的基因序列。通过系统性地进行数据标记,例如样本的来源将有助于解决这个问题。从2001年开始,期刊发行商们达成了一个共识:只接受符合MIAME标准的RNA微阵列研究。对于基因组数据,我们也需要一个类似MIAME的标准。

保护云平台之上的敏感数据需要可靠的协议以及赋予和解除权限的手段。短期内各个项目的数据访问委员会仍应对数据的访问进行把关,但最终保留几个可以掌控云端所有数据库的访问委员会将会是更好的方案。

在法律层面则必须划分清楚资助机构、数据监管部门、云服务提供商以及使用基因组数据的科研人员各自的角色和责任。比如说有人在微博上发基因组的信息,这几个角色中谁应该负责任?为了解决这一问题,全球基因组学与健康联盟已经制定了一个共享基因组及健康相关数据的责任框架。

与此同时,NIH以及其他资助机构在借基因组学的点子在讨论其他公共平台的可能性。NIH下属的国立癌症研究所已经开展了几个在云平台进行基因组学数据的共享和分析的实验项目。

神经学和流行病学这样的学科与基因组学一样面临着数据方面的问题。如果能正确地使用云计算,不光基因组学,连这些学科的研究人员也将能够受益。

英文原文:Data analysis: Create a cloud commons(译者/刘旭坤 审校/朱正贵 责编/仲浩)
  • 大小: 32 KB
  • 大小: 143.6 KB
  • 大小: 52.8 KB
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台

    未来十年,企业数据管理模式将如何进化?Cloudera 的答案是 — 企业数据云。在数据爆炸时代“掘金”数字正在“吞噬”世界。过去的十几年里,我们进入了一个数据爆炸、信息过载的时代。数据规...

  • 虚拟专题:联邦学习 | 面向隐私保护的非聚合式数据共享综述

    来源:通信学报面向隐私保护的非聚合式数据共享综述李尤慧子1,殷昱煜1,高洪皓2,3,金一4,王新珩51杭州电子科技大学计算机学院,浙江 杭州 3100182上海大学计算机工程与...

  • 微软发布研究报告:企业数据管理普遍混乱,揭秘大数据分析趋势以及PowerBI的崛起机遇...

    我们时常看到很多新闻说企业的数据分析或大数据如何如何高大上,但你自己感觉你自己所处的环境呢?很多小伙伴在群里真切的抱怨到:感觉是一坨祥云。为什么你看到的和你感受到的有如此巨大的反差?大数据到底和我们有...

  • 这一年,这些书:2022年读书笔记

    Note: 以下 `markdown` 格式文本由 `json2md` 自动转换生成,可参考[JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了](https://blog.csdn.net/u013810234/article/details/113360229)了解具体的转换过程。...

  • 公有云是什么?

    全球最全面、应用最广泛的云平台,AWS 的优势在于先发优势,亚马逊于 2006 年开始推出 AWS,目前已经运营11年,因此在技术和服务有大量的积累。的研发服务能力,阿里云服务着制造、金融、政务、交通、医疗、电信、...

  • 块级数据将过时 2012存储10大趋势

    另外,基因组序列研究使 得越来越多的人可承担得起,意味着有更多的数据将在各种大小型实验室被创建,从而导致大量数据需要更多的跨存储层管理。  五、数据保护将得到进一步改进  备份应用程序一直是...

  • 数据中台的云原生机会 | 甲子光年

    点击“蓝字”关注我们云原生将给数据中台带来XaaS模式。作者 | 赵健编辑 | 火柴Q从2015年阿里提出中台概念,到2018年阿里升级数据业务双中台战略并对外输出,再到2019年数据...

  • 计算机考研复试整理

    确定单词的类型(关键字,标识符,常量,运算符,界限),将标识出的单词转换成统一的机内表示-词法单元(token)形式【】 词法分析器的主要任务:字符流到记号流 语法分析就是从词法分析其中输出的token序列,识别...

  • .NET Core跨平台的奥秘[中篇]:复用之殇

    原文:.NET Core跨平台的奥秘[中篇]:复用之殇在《.NET Core跨平台的奥秘[上篇]:历史的枷锁》中我们谈到:由于.NET是建立在CLI这一标准的规范之上,所以它天生就具有了“跨平台”的基因。在微软发布了第一个针对...

  • SDNLAB“企业+”网络产品大盘点:云网平台/SDWAN/白盒

    互联网行业向来不缺追逐风口的人,...SDNLAB于4月推出了“企业+”平台后,入驻的各大公司也分享了自家的产品和解决方案,下面一起来看看企业+中各大公司关于网络方面的典型产品与案例吧。(对“企业+”入驻操作还...

  • 企业数据创新之旅——高性能NAS助力业务上云

    在2018年云栖大会·南京峰会的飞天技术汇专场中,阿里云产品专家王登宇带来了题为《企业数据创新之旅——高性能NAS助力业务上云》的精彩技术分享。在分享中,他首先介绍了企业上云面临的困难和阿里云存储之路;随后...

  • 云计算的基础架构:并行计算+资源虚拟化

    开放科学电网,最初设想使大型强子对撞机数据分析便利,连接25000台主机设备和为不同学科的数据密集型研究提供支持,比如生物,化学,粒子物理,地理信息系统。欧洲高效电子科学网络起初由欧盟委员会资助,连接亚欧...

  • Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    随着HDFS越来越稳定,社区的活跃度页越来越低,同时HDFS的使用场景也变得成熟和固定,而上层会有越来越多的文件格式封装:列式存储的文件格式,如Parquent,很好的解决了现有BI类数据分析场景;以后还会出现新的存储...

  • 阿里云产品头条(2017年12月刊)

    高性价比FPGA开发平台,Intel Arria10系列FPGA,提供完整统一的云上开发环境,让FPGA开发者无需关注硬件细节,无需费时搭建FPGA开发环境,快速开始设计。缩短了FPGA的开发时间,降低成本投入; B. 逐步完善的云上...

  • 人力资源经理绩效考核表.xls

    人力资源经理绩效考核表

  • 智慧环卫管理平台建设方案Word(211页).docx

    一、智慧环卫管理平台的建设背景与目标 智慧环卫管理平台的建设源于对环卫管理全面升级的需求。当前,城管局已拥有139辆配备车载GPS系统、摄像头和油耗传感器的环卫车辆,但环卫人员尚未配备智能移动终端,公厕也缺乏信息化系统和智能终端设备。为了提升环卫作业效率、实现精细化管理并节省开支,智慧环卫管理平台应运而生。该平台旨在通过信息化技术和软硬件设备,如车载智能终端和环卫手机App,实时了解环卫人员、车辆的工作状态、信息和历史记录,使环卫作业管理透明化、精细化。同时,平台还期望通过数据模型搭建和数据研读,实现更合理的环卫动态资源配置,为环卫工作的科学、健康、持续发展提供决策支持。 二、智慧环卫管理平台的建设内容与功能 智慧环卫管理平台的建设内容包括运行机制体制建设、业务流程设计、智慧公厕系统建设、网络建设、主机和储存平台需求、平台运维管理体系、硬件标准规范体系以及考核评价体系等多个方面。其中,智慧公厕系统建设尤为关键,它能实时监控公厕运行状态,保障公厕的清洁和正常运行。平台建设还充分利用了现有的电子政务网络资源,并考虑了有线和无线网络的需求。在功能上,平台通过普查、整合等手段全面收集环卫车辆、企业、人员、设施、设备等数据,建立智慧环卫基础数据库。利用智能传感、卫星定位等技术实现环卫作业的在线监管和远程监控,实现对道路、公共场所等的作业状况和卫生状况的全面监管。此外,平台还建立了环卫作业网格化管理责任机制,实现从作业过程到结果的全面监管,科学评价区域、部门、单位和人员的作业效果。 三、智慧环卫管理平台的效益与风险规避 智慧环卫管理平台的建设将带来显著的环境、经济和管理效益。环境方面,它将有力推进环境卫生监管服务工作,改善环境卫生状况,为人民群众创造更加清洁、卫生的工作和生活环境。经济方面,通过智慧化监管,大大降低了传统管理手段的成本,提高了监管的准确性和效率。管理方面,平台能够追踪溯源市民反映的问题,如公厕异味、渣土车辆抛洒等,并找到相应的责任单位进行处置,防止类似事件再次发生。同时,平台还拥有强大的预警机制功能,能够在很多环卫问题尚未出现前进行处置。然而,平台建设也面临一定的风险,如部门协调、配合问题,建设单位选择风险以及不可预测的自然灾害等。为了规避这些风险,需要加强领导、统一思想,选择优秀的系统集成商承接项目建设,并做好计算机和应用系统的培训工作。同时,也要注意标准制定工作和相关法律法规的制定工作,以保证系统建设完成后能够真正为环卫管理工作带来便利。

  • apache-parent-10-14.el7.x64-86.rpm.tar.gz

    1、文件内容:apache-parent-10-14.el7.rpm以及相关依赖 2、文件形式:tar.gz压缩包 3、安装指令: #Step1、解压 tar -zxvf /mnt/data/output/apache-parent-10-14.el7.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm 4、安装指导:私信博主,全程指导安装

  • 用于卫星通信的CTS天线

    用于卫星通信的圆极化CTS天线研究

  • 人事档案登记及查询系统.xlsx

    人事档案登记及查询系统

  • 12 -防损部经理绩效考核表1.xlsx

    12 -防损部经理绩效考核表1

Global site tag (gtag.js) - Google Analytics