科学家呼吁便捷获取分析云端大型生物数据集
时间:2017-12-07

  科学家呼吁便捷访问分析云中的大型云数据集 - 新闻 - 科技网

  通过云计算的正确途径,人类基因组界将为研究人员在许多领域争夺大数据铺平道路。

  Google云服务是研究人员分析大型基因数据集所使用的工具之一。

  图片来源:KeystoneUSA-ZUM

  历史上,人类基因组研究人员受到捕捉大量数据集的挑战的阻碍;今年年初,研究界看到原有重大路障消失,集体欢呼起来。今年3月,美国国立卫生研究院(NIH)禁止使用云计算来存储和分析2007年储存的数百万人类基因组和其他基因信息,包括基因型和表型数据。

  在云端服务的基础上,云服务为客户提供了大规模的存储和计算能力。由于这些服务可以在互联网上获得,而大量的用户可以共享硬件,许多资助机构担心客户“使用基因组信息会威胁提供有关采样者的个人信息。”NIH的态度是革命的一部分应对人类基因组研究面临的挑战的日益增长的挑战以及获取大数据集的挑战阻碍了科学家进行研究的能力,特别是那些在以前的工作中复制和建立的研究。

  为了充分利用云计算的潜力,加拿大多伦多安大略省癌症研究所信息和生物部主任林肯·斯坦因及其同事最近在“自然”杂志上发表了一篇文章,敦促NIH和其他机构进行股票最受欢迎的主要基因数据集支付。这样,数千万研究人员不需要浪费时间和金钱,因为需要将数据从存储库独立地传输到自己选择的云中,授权的科学家将能够在需要时方便和经济地访问云。分享

  海量数据

  由于测序技术的快速发展,提交给公共档案的基因组数据量现在已经达到了PB级。例如,在国际癌症基因组学研究所(ICGC),来自17个国家的团队在短短五年内累积了超过2PB的数据,大约相当于50万张光盘。

  在一般的大学互联网连接的情况下,花了超过15个月的时间将这样一个庞大的数据集从存储库传输到研究人员的本地连接的计算机网络上,不要说处理数据,只需要存储硬件将花费约100万美元。

  云服务提供了弹性,这意味着研究人员可以根据需要快速地在多台计算机上运行分析,只需花费大量的计算时间。通过研究人员笔记本电脑终端控制的基于云计算的虚拟计算机进行分析,一些研究人员可以轻松地并行工作,共享数据和方法,因此需要花费数月时间完成的大规模基因组数据分析现在可以解决在几天或几周内。

  最近,云服务也像大多数学术数据中心一样安全,而且通常比后者更安全。目前,亚马逊,谷歌和微软等大型商业公司正在提供服务,而较小的服务则专注于基因组学,如加利福尼亚州的Annai系统以及英国金沙萨等欧洲生物信息研究所等学术机构。作为管理数据和系统的防火墙和密钥链,控制谁可以访问数据并为数据所有者提供密切监视使用情况的工具。

  然而,一些主要的人类基因组研究资助机构对此持谨慎态度。例如,一些欧盟资助机构建议研究人员遵循欧盟隐私法将基因组数据置于这些机构的管辖之下。但是随着云计算的经济性,灵活性,可靠性和安全性已经发展到现在,Stein等人预计在未来几个月内可以看到大量基于云计算的交易,而且他们正在加速对NIH Change的决定也表示支持。

  现在,在降低研究成本的同时,现在是时候建立机制和实践来最大限度地提高云计算的效率和使用,Stein等指出。

  频道控制

  为了访问存储在中央数据库(例如dbGaP或欧洲基因组档案(EGA))中的人类基因组和其他数据,研究人员必须获得数据采集板(DAC)的批准。目前,如果两个独立的研究团队希望利用私有云或业务云中的相同数据集,则需要单独批准相关的DAC,以便通过Internet复制数据并将其存储在自己选择的云中。

  两个团队都需要等待数据被复制,并且随着数据的复制,每个团队都需要为相应的存储支付相应的存储费用,并且有数千万研究小组开始做同样的事情。几年来浪费研究人员数亿美元和纳税人。即使无限制地访问云服务,由于将数据从存储库传输到云所涉及的时间和成本,今天的大多数团队都不能利用大规模公共基因组数据集。

  一个好的解决办法是要求相关资助机构为每个主要的基因数据集上传到最流行的学术和商业云,并为这些数据在云中进行长期储蓄支付。这样,数据只需要复制一次,研究人员在进行分析时只需要支付临时存储费用。

  目前,一些云服务提供商正在提供免费的研究数据集存储,或者更多的研究人员正在使用基于大额补贴的服务。例如,亚马逊网络服务公司并没有计划一个千人基因组项目的国际项目,该项目将以超过200兆字节(TB)公布数据的当前测序结果为代价,解决人类遗传变异的问题。 Annai系统存储了不断增长的ICGC数据集的子集。

  Stein等人设想像dbGaP或EGA这样的实体将继续成为主要的数据保管者,他们的DAC仍将审查和授权云数据的使用。这样,基因组云计算甚至可以产生微观经济现象。例如,向云提供有价值数据集的基因生物学家在处理过程中会收到信用额度。同样,如果一个计算机科学家提供了一个软件包,让其他遗传学家能够更有效地发现癌症变异,那么每次有人使用这个包时,他都会亲自得到一个信用评分。

  基因标准

  人类基因组界也为研究人员在数据过载运动的其他领域争取了道路。随着时间的发展,会有一个良性循环。混合大数据集的能力将使研究人员能够将罕见的遗传变异与疾病联系起来,类似的成功则鼓励其他人存储更多的数据集并推广更强大的软件。这样的机制也可以与资助机构将某些数据集存储在特定云中的需要相结合。

  当云服务占据主导地位时,一个可能的风险就是单个云服务提供商可能会控制价格,从而对科学执行产生微妙的影响。为了防止这种情况发生,资助机构应该在多个云端存储同样重要的数据集。这样做也有助于解决管辖权问题,例如起源于欧洲的基因组数据,因此仅限于存储在欧洲的云。

  踏入这一视野需要工作,技术和法律,Stein等人指出。例如,目前对于囊性纤维化研究者来说,没有办法编写用于搜索dbGAP数据库的软件来查找从相关疾病人群获得的基因序列。这些数据的系统标签,特别是样本组织的来源,可以帮助解决这个问题。自2001年以来,期刊出版商已经同意接受RNA微阵列研究结果,这些研究结果要求其数据以微阵列实验的最少量信息为特征。基因组数据也是如此。

  在法律层面,必须制定相关规则,以明确资助机构,数据保管人,云服务提供商和利用基于云的基因组数据的研究人员的角色和责任。例如,如果有人向Facebook发送ICGC基因,谁应该对他们负责?幸运的是,在过去两年中,全球基因组与健康联盟已经制定了一个“共享关于健康数据的基因组和数据共享的规则”的框架。

  与此同时,国立癌症研究所也成立了一些试点项目,探索分享和分析云基因组数据的实践活动。美国国立卫生研究院和其他资助机构也开始讨论各种生物医学共享的概念,其中一些包括:通过正确途径的云计算,人类基因组界将为研究人员在许多领域争夺大数据铺平道路。 (红枫树)

  “中国科学”(2015-07-23第3版国际)