不过,这个情况近年来发生了很大的变化。在2015年3月进行的一项心血管研究中,研究者尤安·阿什利(Euan Ashley)在两周时间内就拿到了6000个人的测试结果,这就得益于现在有数百万计的人拥有智能手机和健身追踪器。到了6月份,参与到这项研究中的人数达到了40000人,这仅仅依靠的是一款叫做“我的心脏计数”(My Health Counts,见上图)的苹果应用。有了这个应用软件,阿什利甚至可以招募来自全球的参与者,获取他们的测试结果。那样的话,他得到的数据又将是多少?面对这个现状,不少研究者表示,这些海量数据可能会淹没现有的分析渠道,并对数据存储提出前所未有的“高”要求。
2. “大数据”时代下的挑战
在群体基因组研究的浪潮下,虽然更多的人关注的仅仅只是整个基因组中的外显子部分,即基因组中可编码产生蛋白的部分,它占到了整个基因组的1-5%,这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下,每年产出的数据量仍可达4000万Gb。这就带来了第一个难题,如何存储这么大的数据量?
尽管这还只是这个领域最基本的问题,仍需要巨大的资源来解决。这就是近年来网络上最常出现的一个词——云(Cloud)出现的契机所在。这么大的数据量,必然无法仅仅保存在固定的设备上,需要借助互联网来实现,也即是所谓的“云存储”。此外,这些数据带来的处理危机也是巨大的,电脑处理能力也将局限着它们的应用。这个问题的初步解决依然要依靠“云”,也就是现在所谓的“云计算”。
即使处理好了海量数据的存储问题,我们还将迎来另一个更让人头痛的问题——这些数据说明了什么?现在关于基因组学的临床研究,往往聚焦于识别个人基因组中可扰乱基因功能的“小错误”,即所谓单核苷酸突变(single-nucleotide variants, SNPs),即使这些突变往往存在于仅占基因组1%的外显子区域,平均下来,依然有近13000个之多,而其中的2%已被预知可影响相应蛋白的变化,但要从中找出某类疾病的具体致病基因,仍是一个巨大的挑战。
自奥巴马提出了“精准医学”的概念,这个方向就一路红火。即使现在已经有了测序技术和分析工具这些手段,有了电子健康记录这位“好帮手”,这种医疗方法的理想和现实之间仍然有着巨大的鸿沟。在这个领域,仍然存在多种障碍。比如,即使在电子健康记录普及和新疗法研发成功的前提下,想要依靠临床医生来实现这些疗法,往往还需要对他们进行不间断的培训,以帮助他们在做医学决定前了解足够多的细节信息。
此外,电子健康记录的不可共享性(即涉及到病人隐私的问题),为精准医疗的实现设置了不小的障碍。很多时候,治疗患者个体病例的特异性信息往往被患者个人和治疗机构所把持,到不了研究者手里,那么就无法据此信息来改进一些治疗方法,因此也就没办法实现对个人的“个体化医疗”。这些问题往往反映生物医学领域需要信息处理专家的介入和帮助。遗憾的是,生物信息学家在学术领域也仅仅只占很少的席位,更别提在医学领域,还需要给他们提供更多的职位和机会。
3. “大数据”带来的机遇
有挑战也必然会带来机遇,这个机遇可以体现在生物医学领域的多个方面,比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法,甚至生物学科基础研究领域的新工具等等。
2013年,安吉丽娜·朱莉的故事轰动全球,为减少患上乳腺癌的风险,她进行了预防性的双乳腺切除术,而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。这类基因能带来显著的致病风险,约有55-65%的乳腺癌患者携带有害的BRCA1基因突变,45%的携带BRCA2突变。对朱莉来说,虽然她携带的仅仅是前一个基因,已足以让她做出预防性手术的决定。这个故事给出了一个鲜活的例子,就是如何把个体测序得到的数据与临床诊断联系在一起,这就好像人类正在从自己的基因组中找到这些失落的宝藏,从而帮助自己预防一些恶性疾病,但这只是这个时代所带来的一个福利而已,并且只占到很少的一部分。
【免责声明】本文仅代表作者个人观点,与IT09数码网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。