阅读更多
美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。



基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一


今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。

云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因为基因组学研究中正面临着现实问题:如何获取数据库中的大量数据。这已经阻碍了科研人员的工作,尤其是当研究工作涉及到现有的数据信息时。

为了充分利用云计算技术所提供的便利,我们敦促NIH和其他科研资助机构在常用的云平台中免费提供基因组数据。这样全球数以千计的科研人员就不用浪费自己的时间和金钱将数据转移到自己熟悉的云平台,只要从这个统一的数据平台进行存储和分析就可以了。

大数据

随着基因组排序技术的提高,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比如国际癌症基因组联盟ICGC的数据库中不到五年时间就积累了从17个国家收集而来的超过2PB数据,这相当于50万张DVD的容量。

按一般大学的网速来算,将这些数据转移到研究人员自己的内部网络中需要花超过15个月。先不说处理,就单单存储这些数据的硬件就要花大概100万美元。

云计算为我们提供了计算资源上的弹性,研究人员可以需要多少计算资源就有多少计算资源。分析完成之后只需要为计算分析的一小段时间付费。科研人员之间也可以更好地进行分工合作,在虚拟机上就能轻松地分享数据和计算方法。以前要花上几个月的基因组数据分析现在可能只需要几天或者几周。(见下图)



时至今日,云服务的安全性已经胜过了研究机构自己的数据中心。提供云服务的既有亚马逊、谷歌和微软这样的商业企业,也有专注于基因组研究的小型公司,比如加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研究所。这些提供商采取加密和防火墙或密保卡等方式来控制数据的使用权,并为数据所有者提供监测数据使用的工具。

一些人类基因组学的主要资助机构还是对云计算持谨慎态度。如一些欧洲的资助机构就建议将基因组数据控制在自己的管辖范围内以遵守欧洲的隐私法律。但我们预计,基于云计算的经济性、灵活性、可靠性和安全性,未来几个月肯定会有向云平台的大规模迁移潮。NIH的决定无疑会加速这一过程,我们在此对NIH表示感谢。

现在让我们来看看如何在云平台用最少的花销达到最高的效率。



访问控制

科研人员想要从dbGAP等数据库中取得人类基因组数据,必须要经过数据访问委员会的批准。现在如果有不同的科研人员想要在云平台上使用同一数据集,他们各自必须得到相应的数据访问委员会批准。然后要将数据复制到自己的云平台才能开始工作。

所有这些科研人员都必须等着数据复制,也必须向自己使用的云平台支付费用。如果100组科研人员都这么做,那么这个过程很明显浪费了科研人员很多的时间和金钱。就算是可以随便把数据复制到自己的云平台,大多数科研人员恐怕也负担不起这一过程需要的时间和花销。

有一个更好的方式可以解决这个问题:相关的资助机构可以要求将主要的基因组数据集上传到常用的云平台中并支付存储的费用,这样所有数据只需要复制一次而且科研人员自己只需要支付进行分析时的一点点开销。

现在不少云计算提供商为科研数据提供极低价格的存储甚至完全免费以鼓励科研人员使用自家的云服务。亚马逊AWS为千人基因组计划提供免费存储(有超过200TB数据),Annai Systems也为一部分ICGC数据集提供免费存储。

假设迁移到云平台之后现在的数据库提供者和数据访问委员会的设置保持不变的话,在基因组云计算的范围内甚至可能诞生一个市场。比如提供了有价值数据的基因生物学家可以获得云计算平台的分析时间作为奖励。计算机科学家如果提供了可以提高分析效率的程序,也可以在别人运行它的程序时得到一定的回报。

经过一段时间这便会形成一个良性循环。这些大的数据集融合在一起可以令科研人员更快发现基因与疾病之间的联系,这反过来会鼓励更多人分享数据集或开发更强大的软件。

这种方式也有一定的风险。如果把所有数据都集中到同一个云计算平台,此云计算平台就会因为垄断而提价,而这些成本就会转嫁到科研经费中。为了避免这种情况发生,应该将重要的数据集放在多个云平台上。这也可以解决之前提到的欧洲资助机构的担忧,只要将欧洲所贡献的数据限制在欧洲的云服务提供商即可。

基因组学标准

当然要达到我们最终的目的还需要很多技术和法律方面的努力。比如现在囊性纤维变性研究人员完全不能通过软件在dbGap数据库中搜索病患的基因序列。通过系统性地进行数据标记,例如样本的来源将有助于解决这个问题。从2001年开始,期刊发行商们达成了一个共识:只接受符合MIAME标准的RNA微阵列研究。对于基因组数据,我们也需要一个类似MIAME的标准。

保护云平台之上的敏感数据需要可靠的协议以及赋予和解除权限的手段。短期内各个项目的数据访问委员会仍应对数据的访问进行把关,但最终保留几个可以掌控云端所有数据库的访问委员会将会是更好的方案。

在法律层面则必须划分清楚资助机构、数据监管部门、云服务提供商以及使用基因组数据的科研人员各自的角色和责任。比如说有人在微博上发基因组的信息,这几个角色中谁应该负责任?为了解决这一问题,全球基因组学与健康联盟已经制定了一个共享基因组及健康相关数据的责任框架。

与此同时,NIH以及其他资助机构在借基因组学的点子在讨论其他公共平台的可能性。NIH下属的国立癌症研究所已经开展了几个在云平台进行基因组学数据的共享和分析的实验项目。

神经学和流行病学这样的学科与基因组学一样面临着数据方面的问题。如果能正确地使用云计算,不光基因组学,连这些学科的研究人员也将能够受益。

英文原文:Data analysis: Create a cloud commons(译者/刘旭坤 审校/朱正贵 责编/仲浩)
  • 大小: 32 KB
  • 大小: 143.6 KB
  • 大小: 52.8 KB
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台

    未来十年,企业数据管理模式将如何进化?Cloudera 的答案是 — 企业数据云。在数据爆炸时代“掘金”数字正在“吞噬”世界。过去的十几年里,我们进入了一个数据爆炸、信息过载的时代。数据规...

  • 虚拟专题:联邦学习 | 面向隐私保护的非聚合式数据共享综述

    来源:通信学报面向隐私保护的非聚合式数据共享综述李尤慧子1,殷昱煜1,高洪皓2,3,金一4,王新珩51杭州电子科技大学计算机学院,浙江 杭州 3100182上海大学计算机工程与...

  • 微软发布研究报告:企业数据管理普遍混乱,揭秘大数据分析趋势以及PowerBI的崛起机遇...

    我们时常看到很多新闻说企业的数据分析或大数据如何如何高大上,但你自己感觉你自己所处的环境呢?很多小伙伴在群里真切的抱怨到:感觉是一坨祥云。为什么你看到的和你感受到的有如此巨大的反差?大数据到底和我们有...

  • 这一年,这些书:2022年读书笔记

    Note: 以下 `markdown` 格式文本由 `json2md` 自动转换生成,可参考[JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了](https://blog.csdn.net/u013810234/article/details/113360229)了解具体的转换过程。...

  • 公有云是什么?

    全球最全面、应用最广泛的云平台,AWS 的优势在于先发优势,亚马逊于 2006 年开始推出 AWS,目前已经运营11年,因此在技术和服务有大量的积累。的研发服务能力,阿里云服务着制造、金融、政务、交通、医疗、电信、...

  • 块级数据将过时 2012存储10大趋势

    另外,基因组序列研究使 得越来越多的人可承担得起,意味着有更多的数据将在各种大小型实验室被创建,从而导致大量数据需要更多的跨存储层管理。  五、数据保护将得到进一步改进  备份应用程序一直是...

  • 数据中台的云原生机会 | 甲子光年

    点击“蓝字”关注我们云原生将给数据中台带来XaaS模式。作者 | 赵健编辑 | 火柴Q从2015年阿里提出中台概念,到2018年阿里升级数据业务双中台战略并对外输出,再到2019年数据...

  • 计算机考研复试整理

    确定单词的类型(关键字,标识符,常量,运算符,界限),将标识出的单词转换成统一的机内表示-词法单元(token)形式【】 词法分析器的主要任务:字符流到记号流 语法分析就是从词法分析其中输出的token序列,识别...

  • .NET Core跨平台的奥秘[中篇]:复用之殇

    原文:.NET Core跨平台的奥秘[中篇]:复用之殇在《.NET Core跨平台的奥秘[上篇]:历史的枷锁》中我们谈到:由于.NET是建立在CLI这一标准的规范之上,所以它天生就具有了“跨平台”的基因。在微软发布了第一个针对...

  • SDNLAB“企业+”网络产品大盘点:云网平台/SDWAN/白盒

    互联网行业向来不缺追逐风口的人,...SDNLAB于4月推出了“企业+”平台后,入驻的各大公司也分享了自家的产品和解决方案,下面一起来看看企业+中各大公司关于网络方面的典型产品与案例吧。(对“企业+”入驻操作还...

  • 企业数据创新之旅——高性能NAS助力业务上云

    在2018年云栖大会·南京峰会的飞天技术汇专场中,阿里云产品专家王登宇带来了题为《企业数据创新之旅——高性能NAS助力业务上云》的精彩技术分享。在分享中,他首先介绍了企业上云面临的困难和阿里云存储之路;随后...

  • 云计算的基础架构:并行计算+资源虚拟化

    开放科学电网,最初设想使大型强子对撞机数据分析便利,连接25000台主机设备和为不同学科的数据密集型研究提供支持,比如生物,化学,粒子物理,地理信息系统。欧洲高效电子科学网络起初由欧盟委员会资助,连接亚欧...

  • Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

    随着HDFS越来越稳定,社区的活跃度页越来越低,同时HDFS的使用场景也变得成熟和固定,而上层会有越来越多的文件格式封装:列式存储的文件格式,如Parquent,很好的解决了现有BI类数据分析场景;以后还会出现新的存储...

  • 阿里云产品头条(2017年12月刊)

    高性价比FPGA开发平台,Intel Arria10系列FPGA,提供完整统一的云上开发环境,让FPGA开发者无需关注硬件细节,无需费时搭建FPGA开发环境,快速开始设计。缩短了FPGA的开发时间,降低成本投入; B. 逐步完善的云上...

  • pendulum-2.1.2-cp39-cp39-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • Nginx配置文件中FastCGI相关参数理解

    Nginx配置文件中FastCGI相关参数理解

  • Pillow-8.4.0-cp310-cp310-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • yolo算法-刹车灯探测器数据集-1070张图像带标签-交通信号灯.zip

    yolo系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值

  • pocketsphinx-0.1.15-cp36-cp36m-win32.whl.rar

    python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。

  • NI-VISA资源安装包

    Windows下2024Q4版本

Global site tag (gtag.js) - Google Analytics