当前位置:IT09数码网 > 热点 > 数码快讯 > 正文

生物基因大数据激增,分析健康数据或揭示疾病如何发生

http://www.it09.cn 时间:2016-08-23 10:09来源:IT09数码网

  

  自2012年美国总统奥巴马提出“大数据”(Big Data)以来,生物大数据如火如荼地发展。通过高通量测序,我们已经积累了庞大的基因数据,通过移动互联网,我们也获得了海量的健康信息。这些数据的应用,将为疾病的诊断、分型、医药开发提供新方向以及新工具。然而如何分析基因以及健康数据,是横亘在大数据本身与解决健康问题之间难以逾越的鸿沟。不过有一点我们可以确信:当大数据分析的精度越来越高时,我们对疾病发生的过程就会有更深入的了解。

  21世纪初,人类基因组计划(HGP)发布了第一张人类基因草图,人的基因组约有30亿个碱基对,意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划(原子弹制造)、阿波罗登月计划并称为三大科学计划,为本世纪的一个里程碑式的科学工程。

  15年过去了,基因组测序技术发展之快已经超乎人们的想象。十年前,这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在,它却已经渐渐步入医疗界,成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。

  早前,曾有人预言,当个人基因组测序费用下降到1000美元时,就标志着我们的医学将进入个体化医疗(Personalized Medicine)的时代。现在,这个目标已基本达到,随着这项技术的迅猛发展和成本的扁平化,它已经开始给我们带来了庞大的数据,包括基因组、蛋白组等各类组学(omics)的出现,也带来了不少数据。

  1. 海量数据的产生

  刚过去的七八年间,我们储存的个人基因组数据量已达到106规模,这个数量如此惊人,且这只是刚刚开始。每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作,该测序系统已分布在全球顶尖测序中心,每天产生大量的数据。英国2014年也启动了“十万人基因组计划”,美国和中国则宣布要完成多达一百万人的基因组数据收集工作。

基因测序数据正在以更快的速度翻倍。2015年以后,以历史累积的测序数据来看,每7个月就能翻一番, Illumina仪器测序所得的数据,每12个月就能翻一番;如果仅以摩尔定律来看,每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自nature.com

  基因测序数据正在以更快的速度翻倍。2015年以后,以历史累积的测序数据来看,每7个月就能翻一番, Illumina仪器测序所得的数据,每12个月就能翻一番;如果仅以摩尔定律来看,每18个月数据量就能翻一番。这种情况将带来一个巨大的“数据黑洞”。图片来自nature.com

  以上所提及的,只是大数据时代下的一个缩影,现在面临的还有其他数据。比如,伴随基因组计划的发展,人类蛋白组计划和基因测序结果在医疗界的应用等也被逐步提出,它们也正在给大数据“添砖加瓦”。所谓人类蛋白组计划,主要目的在于研究所有人类基因编码产生的蛋白质。关于这个,我们来看一个研究者的故事。

美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。来源:斯坦福大学网站

美国斯坦福大学迈克尔?斯奈德(Michael Snyder)。来源:斯坦福大学网站

  迈克尔·斯奈德(Michael Snyder)是美国斯坦福大学的一名分子遗传学家。当他抱着好奇的心态测了自己的基因组后,得到了一些“惊喜”。他发现,自己是一名II型糖尿病易感基因的携带者,尽管在这之前,他并没在自己身上发现任何此类疾病的风险因素,包括肥胖、家族病史等等。在接下来的14个月,斯奈德持续监控了自己体内相应RNA的活性和蛋白表达情况。在一次感染呼吸道病毒后,他发现自己体内的蛋白表达发生了变化,并且有相应的生物学通路被激活。接着,他被诊断出了糖尿病。看起来,这场病就是由这次病毒感染所触发的。此后,他还在患上莱姆关节炎时,也监控了自己体内的蛋白表达变化。这时,他的研究已经产生了多达50Gb的数据,这还仅仅只是关于他个人的研究数据。当他将这项研究扩展至100个人时,并将研究目标扩展至13类“组学”(包括蛋白组、肠道菌群的转录组等等),而实际上,按照他的计划,要想真正做到预测疾病,还需要将研究对象增加至上百万个病人。如此这样,它将会带来多大的数据量?

  各种电子设备的普及以及健康数据记录App的出现,给这个时代带来了海量的数据,也给医学界带来了可观的研究对象。过去的几十年间,医生如果要观察病人的心血管健康情况,往往会给他们做这么一个小测试:让他们在一段平缓、稳固的路上行走6分钟,并记录他们的行走距离。这个测试不仅可用于预测肺移植者的存活率,还可用于检测肌肉萎缩的病程发展,甚至可以评估心血管患者的健康状况。这种小测试已被运用于多项医疗研究中,但在过去,最大规模的医疗研究项目中,这种参与者也很少能达到一千人。

智能手机中健康类App的出现,从而能让研究者获取大量人群的数据。图片来自nature.com

智能手机中健康类App的出现,从而能让研究者获取大量人群的数据。图片来自nature.com

【免责声明】本文仅代表作者个人观点,与IT09数码网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。