2008年Google成立10周年,英国Nature杂志曾出版关于“讨论大数据处理的技术问题和未来挑战”的专辑,最早提出了“Big Data”的概念。随着计算机科学技术和信息工程技术的迅猛发展和普及应用,各行业数据呈爆炸性增长,大数据处理的迫切性和重要性已经获得全球学术界、工业界和各国政府的高度关注和重视。2012年3月,美国总统奥巴马签署并发布了“大数据研究发展创新计划”,该计划由美国国家自然科学基金会(NationalScience Foundation,NSF)、美国国立卫生研究院(National Institutes of Health,NIH)、能源部(Department of Energy,DOE)、国防部(Department of Defense,DOD)等6大部门联合投资2亿美元启动。中国的学术界和工业界也在积极赶超世界前沿,广泛开展大数据技术的研究和开发。“十一五”以来,国家科技部973、863 计划联合工业和信息化部开展的核高基等科技重大专项、国家自然科学基金等重大科研计划均已将大数据列为重要的研究内容。
人类基因组计划(human genome project,HGP)、基因组单体型图计划(hapmapproject)、全基因组关联分析(genome-wide association study,GWAS)、DNA元件百科全书(encyclopedia of DNA elements,ENCODE)、表观路线图(NIH roadmap epigenomics)等大型组学计划的顺利完成,带动了生命科学领域的重大变革。高通量测序、高性能质谱等组学技术得以快速发展,生命科学研究产生了大量有价值的包括基因组学、转录组学、蛋白质组学、代谢组学等在内的“生物大数据”。整合分析多重组学数据和临床资料,构建健康与疾病的知识网络,将有望对疾病发展和不同病理状态进行更加准确的分类,为不同遗传背景的患者提供个体化诊断及精准治疗。
1 精准医学大数据的系统整合与挖掘分析
1.1 生物医学大数据的集成与管理
随着信息技术的飞速发展,生物医学领域进入了海量数据时代。一方面,传统医疗领域每天都在产生大量的诊断影像图像、病理分析图等,而且患者的数据通常需要保留至少50年以上,这些数据不仅包括大量在线或实时数据,还包括临床决策支持中的诊断和用药建议、各种结构化数据表、非(半)结构化文本文档、医疗影像、电子录音等多种数据。另一方面,各种组学数据是目前生物医学领域增长最快的数据类型,是精准医学研究的重要组成部分。
测序技术的发展日新月异,1999年来自多个国家的科学家花费30亿美金、10年时间完成了一个人的基因图谱序列,2007年测定一个亚洲人基因图谱序列花费3000万人民币。目前测定一个人的基因图谱序列只需数千元人民币,Illumina公司生产的HiSeq X Ten测序仪1年至少可以完成18000人的全基因组测序。在此背景下,生命健康领域快速产生了大量的组学数据。与此同时,各国也纷纷开展以组学为基础、以个性化治疗为目的精准医学计划。来自16个国家的科学家共同参与的肿瘤基因组图谱计划(the cancer genome atlas,TCGA)已经收入上万例患者样本,涵盖42种肿瘤类型,目前已发现近1000万个与癌症相关的基因突变,数据量超过5PB。美国100万人基因组研究的精准医疗(precision medicine initiative)计划正在全面展开;英国“10万基因组计划”也进行到了关键时刻。基因组技术正在以超乎人们想象的速度成为诊断和治疗疾病的实用工具,N Engl J Med专门为此向临床医师发布基因组测序的临床应用指南,希望帮助他们更有效地利用这一新技术。
对于生物医学大数据的有效管理和利用是使其体现出巨大科学与产业价值的关键,同时也是大数据应用的技术瓶颈。20世纪80~90年代,美国、日本、欧洲等发达国家和地区即已率先建立世界三大生物数据中心:美国国家生物技术信息中心(NCBI)、日本DNA 数据库(DDBJ)、欧洲生物信息研究所(EBI),掌握并管理全世界的生物数据和知识资源,并处于垄断地位。我国人口众多,具有丰富的生物样本资源,但是,我国产生的许多科研数据资源不得不提交至上述数据中心,导致我国投入大量资金与人力产生的生物数据严重流失,严重威胁我国生物数字主权。
尽快建设一个国家级的生命信息中心不但意义重大,而且非常紧迫。为了更加有效地管理与利用生物医学大数据,科技部已经率先启动面向精准医学大数据管理和服务需求的“生物大数据开发与利用关键技术研究”等重大研究计划,积极建设“组学大数据中心和知识库”“疾病大数据处理分析与应用”“基于区域医疗与健康大数据处理分析与应用”等国家级的研究中心和技术联盟。在技术层面,相对于世界三大数据中心建设之初,计算机硬件和软件技术均已取得了长足的进步,我国已经制造出稳定高性能和高并行化的超级计算机,并掌握了高输入输出的分布式存储技术。我国有条件发挥后发优势,尽快满足精准医学快速发展所面临的数据和分析的需求。
1.2 生物医学大数据的挖掘与分析
面对生物医学领域以几何级数增长的多样化、海量数据,建立标准化的分析方法极为重要,这是不同医疗单位、科研团体之间实现数据共享、资源整合,并进一步实现精准医疗的前提。在医疗病历的数据汇总和整合方面,美国初创公司Flatiron Health采取了匹配算法和人工复核的手段实现临床数据的挖掘,代表着行业内的标准策略。整体来说,传统医疗数据的挖掘仍处于开始阶段,依赖于模式识别、自然语言处理、混合型人机学习等技术的发展。
组学数据类型较传统医疗数据少,产生平台相对一致,主要集中于Illumina、Life Technologies和Roche三家公司,但面临单一数据量大、可重复性差、处理流程多样等问题。基因组方面,已有大量的工具来鉴定个体基因组中的SNP、indel、copynumber variation、基因融合等,但不同工具结果间的一致性相对较低。在转录组学研究领域,Su等通过比较不同平台、不同实验室、不同分析流程处理的RNA-Seq数据发现未被注释的exonexonjunction超过80%可以被qPCR证实,而基因表达水平若需在不同平台和实验室之间取得较高的一致性则需设定特殊的过滤标准。这些现状显示出建立准确、统一、可追溯的分析标准的必要性。在此背景下,美国肿瘤研究所联合Broad 研究所、系统生物学研究所(Institute for Systems Biology,ISB)和七桥基因组公司(Seven Bridges Genomics)开展了云试点项目(the cloud pilots program,http://cbiit.nci.nih.gov/ncip/nci-cancer-genomics-cloud-pilots),希望实现从样本收集到医疗数据、组学数据的分析、可视化等的统一。另有一系列商业和非商业化的云计算解决方案也在积极尝试中,如DNAnexus(https://www.dnanexus.com),Galaxy(https://usegalaxy.org),CloudMan等。
1.3 精准医学大数据的整合与共享
有效利用生物医学大数据的重要基础是“聚类”。整合多种组学数据以及将组学数据和临床数据结合并用于临床诊断、药物开发等精准医学范畴,需要统计基因组学、临床应用生物信息学、病理学、治疗等多领域专家有效协作才能实现。虽然整合的过程困难重重,但国家级的基因组计划已经成为世界各国发展的热点,已有类似的整合研究正在探索中。实验技术方面,Macaulay等开发出了称为G&T-seq的新型测序方法,能够实现大规模的DNA和RNA平行测序,同时展现单个细胞的基因组序列和基因活性。生物信息方法学方面,Kaplan-Meier分析通过测序数据和临床生存数据的结合可以筛选出多种类型的标志物。通过整合基因组突变、表达、拷贝数等数据可以富集出影响疾病的通路。PARADIG整合多种组学数据,通过统计推断得出患者特异的疾病通路,并能依据通路将患者分组,进一步指导临床治疗。Yuan等整合了体细胞拷贝数变化、DNA甲基化、miRNA/mRNA/蛋白质表达数据和临床数据,通过LASSO+Cox、随机生存森林等计算一致性指数,得出结论:分子数据结合临床数据较二者独立情况下更能准确地预测患者生存情况。近年来还发现微生物组与人类健康密切相关,QIIME等工具可整合微生物组和临床数据,进而发现肠道菌群与神经系统、肝脏等疾病之间的关系,为精准医学的实现提供了新的视角。
上述分析层面的整合集中于研究阶段,应用层面的整合和共享是提高大数据再利用率和用于精准医学的进一步要求。在数据整合方面,理清数据集之间的关系,如原始数据集、元数据集和知识型数据集之间的关系,平衡搜索速度和结果的特异性等尤为重要。云计算支撑大数据的解决方案为:结构化数据采用数据库和数据仓库技术管理。半结构化数据采用网页、搜索引擎等技术展示。非结构化数据用深度学习、网络交互和群体智能处理。对非结构化数据随着挖掘过程的自适应简约,频繁使用的热数据逐步变为半结构化甚至结构化,其余转为冷存储。在数据共享方面,一方面要有高性能的互联网架构,实现高效率的存储和传输;另一方面要注意数据的隐私和安全,通过数据加密、屏蔽隐私数据等技术手段和国家层面的法律法规的约束和引导才能得到保证。
2 生物大数据的精准医学应用
2.1 大数据时代的疾病风险评估与健康指导
在过去很长一段时间,人们只有在身体不适、已经患某种疾病时才去寻求专业医疗的帮助。而此时疾病往往已进展至较为严重的阶段,错过了最佳的治疗时间。大数据时代的到来,特别是基因组、转录组、表观组、蛋白质组、代谢组、微生物组等生物大数据的不断积累,为利用多重组学数据评估健康人群的患病风险提供了重要的理论依据,《黄帝内经》提出的“上医治未病”有望成为现实(图1)。
美国影星Angelina Jolie面对自身BRCA基因缺陷、家族女性亲属患乳腺癌去世等肿瘤高发风险,接受乳腺和卵巢的外科切除手术已为大家熟知。美国斯坦福大学遗传与个体化组学中心主任Michael Snyder教授是利用组学数据评估个体健康研究的先行者,54岁时开始采集自身血液样本,历经14个月,共获得20个时间点的样品。通过整合分析样品的基因组、转录组、蛋白质组、代谢组和自身抗体谱,Michael Snyder团队不仅全面揭示了个体在疾病和健康状态下各分子的动态变化,也表明其患2型糖尿病等疾病的风险较高。尽管Michael家族并未有人罹患2型糖尿病,其本身也不超重,但通过咨询临床医师,发现其糖代谢已超过正常界限。根据医师的建议,Michael Snyder教授调整了自己的饮食结构和生活规律,加入了锻炼计划。6个月后,其血糖水平恢复正常。
人类基因组计划的总负责人、美国NIH 现任主任Francis S. Collins 博士也曾尝试了三家公司(23andMe、deCODE、Navigenics)的精准医学定制服务,根据检测结果“联系了私人教练,下定决心节食并增加运动,以减少罹患糖尿病的风险。此外,还查阅了关于黄斑变性的研究文献,发现多摄取不饱和脂肪酸对预防该病大有裨益。因此,在食谱中增加了更多的鱼类。鉴于我可能有罹患青光眼的风险,我也下定决心每年进行1次眼部检查,包括眼压测量”。
在我国,随着测序技术日趋成熟、测序成本日益降低,为临床服务的测序服务商不断增多。相信在不远的将来,随着基因检测服务的逐步完善与规范,更多的普通人群也能像Snyder教授和Collins教授一样,获得专业解读的个人基因组学信息,监控个人健康状况,更好地规划自己的生活和未来。
2.2 整合分析多组学和临床数据确定疾病靶点
自Pauling等确定镰刀型细胞贫血症(sickle cell anemia)的分子遗传机制以来,目前已被确定的遗传病超过5000种,主要包括单基因遗传病、多基因遗传病、染色体异常遗传病等三大类。高通量测序和生物大数据分析已成功用于多基因遗传病检测、无创产前筛查(NIPT)和胚胎植入前遗传学检测(PGD)等临床实践,取得了良好的社会效益和经济效益。此外,高通量测序在检测外周循环血液中的肿瘤细胞或肿瘤DNA/RNA,用于早期肿瘤筛查、检测肿瘤复发、观察临床疗效等方面也具有其独特的优势。
我国科学家已经在疾病队列人群的全基因组关联分析(genome-wide association study,GWAS)等多组学研究中积累了丰富的工作经验,为阐明复杂疾病发生的分子机制提供了重要的理论依据。1998年,中南大学夏家辉院士等成功地克隆人类遗传性神经性耳聋的致病基因GJB3。交通大学贺林院士的团队率先完成第1例孟德尔常染色体遗传病A-1型短指(趾)症致病基因的克隆与突变检测;通过对患病家系的遗传连锁分析,定位了第1例以中国人姓氏命名的罕见恒齿缺失的孟德尔常染色体显性遗传病“贺–赵缺陷症”的致病基因。安徽医科大学张学军教授等在银屑病、系统性红斑狼疮、麻风、白癜风等复杂疾病的GWAS研究中发现一系列疾病易感基因。中山大学肿瘤医院曾益新院士等开展的鼻咽癌GWAS除证实人类白细胞抗原与鼻咽癌的关联性外,发现多个新的易感基因。军事医学科学院贺福初院士和周钢桥教授开展的肝脏蛋白质组和肝癌的GWAS研究,发现乙型肝炎病毒相关肝癌的易感基因。中国医学科学院基础医学研究所张学教授对于遗传性脱发相关药物靶点以及他与沈岩院士合作的反常性痤疮家族基因的研究。中国医学科学院肿瘤研究所詹启敏院士团队在广东潮汕地区开展食管鳞状细胞癌研究。林东昕院士课题组开展的肺癌、食管癌流行病学研究;林东昕院士与郑州大学王立东教授等对河南安阳地区的食管癌队列研究等。
一些复杂疾病往往是由遗传、环境等多重因素导致的,仅依赖于临床上的影像诊断和病理分析等难以对疾病作出准确的诊断和分类。综合分析多种组学数据和临床数据,能够更加准确地确定各疾病的亚型。在乳腺癌中,不同的分子亚型在临床症状、治疗反应和效果方面有明显差异。由转录组数据确定的胰腺癌三种亚型,患者治疗后的反应具有差异性。而不同分子亚型的结直肠癌患者的存活时间显著差异。除癌症外,这种综合分析也被用于其他复杂疾病的诊疗,如自闭症谱系障碍。综合分析外显子组数据、基因表达谱、蛋白质表达谱以及临床上的心理测试和影像诊断,研究人员提出了新的自闭症亚型,这一成果不仅加强了自闭症诊断,也为后期选择有效的治疗方案提供了依据。
2.3 精准医学药物研发及用药指导
单一靶点的药物可以靶向特定的肿瘤细胞。肿瘤是多基因疾病,需要多靶点的药物治疗。肿瘤的特点是过度增殖,因此开发的抗肿瘤药物主要用于抑制肿瘤生长,相应的分子靶标大多数属于激酶与受体。多组学数据与临床数据的整合分析,为疾病新靶点的确定提供了更加有效的技术手段。20世纪80年代后期,研究人员针对发现的一种过度表达HER2蛋白的侵袭性乳腺癌亚型研发了曲妥珠单抗(赫赛汀)用于治疗HER2过度表达的转移性乳腺癌。此后,曲妥珠单抗也被用于治疗HER2过度表达性胃癌或食管胃结合部癌以及尿道癌,是基因靶向药物的成功范例。在精准医疗时代,相信更多的药物研发将集中针对一种或多种疾病的靶点。
在用药指导方面,临床上多数仅根据症状体征、辅助检查和影像学资料进行诊断,针对具有相同或相似症状指标的患者,将使用同样的治疗方案。而实际上,不同患者对同一种药物的敏感性存在差异。个体间的用药差异与患者本身的遗传背景有紧密的关系。精准医疗能够根据分子特征将患者进行细致分类,为有效治疗提供参考。在指导临床用药方面,以常用抗凝药物华法林为例,美国食品和药物管理局(FDA)于2010 年2月修改了华法林的药物说明书,建议在使用该处方药前,要对维生素K环氧化物还原酶和P450代谢酶CYP2C9进行基因检测,针对不同的基因类型,配合抗凝药学实践,进行药物剂量调整,可减少抗凝过量的发生,具有积极的临床意义。中日友好医院院长王辰院士介绍,目前美国已有166种药物的说明书标注有相关的基因信息,欧洲药品管理局(EMA)有88 种,日本药品和医疗器械局(PMDA)有28种,而中国仅有不超过10种药物使用说明提出模糊要求而且不强制执行。如果能坚持推广精准用药临床医学指导,可望能有效避免卡马西平、氯吡格雷、别嘌醇、甲氨蝶呤、巯嘌呤等药物的严重不良事件,减少药品的无效使用和医保的不必要支出。
3 结语
现阶段我国在基因测序技术、临床队列以及生物医学大数据等方面已经奠定了良好的研究基础。然而,在生物大数据、生物样本等资源共享方面仍然面临一定的挑战。同时,如何有效集成、整合、分析不同来源、不同层次的生物大数据,提供有效靶点用于临床试验与用药指导,也是备受关注的重要科学问题。针对正在酝酿启动的精准医学计划,我国政府也在积极出台相关的法律和法规,在创新科技政策的引导下,积极推动并协调多部门合作。各种行业协会、学术团体同时努力发挥其交流融合的优势。在基础研究方面,尽快建立符合精准医学需求的大型队列、标准化生物标本库、中国人遗传特征等大数据资料和相应的分析标准。在医疗活动的具体实施层面,及时纳入精准医学的评价和治疗体系,对不同基因型的患者提供个体化诊断及精准药物治疗。地方政府、企业和金融机构也通过各种形式积极参与,通过“交叉融合、协同创新”,相信适合我国国情的精准医学体系能很快进入具体实施阶段。
来源:《中国医学前沿杂志(电子版)》,2015,7(6):4-10.
作者:李艳明,杨亚东,张昭军,方向东