热门搜索
SMA 非整倍体 细胞STR鉴定 男性家族排查 脆性X 叶酸 SNP Y-STR试剂 亲缘鉴定 DNA甲基化 16S/18S/ITS 采保试剂 微卫星不稳定 荧光定量PCR 宏基因组测序 核酸提取

阅微沙龙

与您分享新观点

专家采访

年龄预测——当法医学遇到机器学习

【2018-08-30】

对嫌犯年龄的估计能够极大地协助警务人员的工作,加快嫌疑人的搜查和确认。然而,预测年龄是一个复杂的问题。从现场的微量痕迹中推测嫌犯的年龄,这看似是个不可能的任务。


要完成这样‘不可能’的任务,就需要非同一般的工具。而近年来飞速发展的基因测序和机器学习,正是这样两件神兵利器。今天,大阅哥从三篇论文中提炼了一些内容来向大家介绍近来法医年龄预测方面的最新进展。由于论文的专业性比较高,所以将其总结放在本文最后,供对机器学习、统计学感兴趣的朋友们可以深入了解。

随着年龄的增长,人体的多种生理指标会随之变化。那么,根据观测到的生理指标的变化,我们就有可能推测样本的实际年龄——年龄预测的基本出发点。


近年来,研究人员把目光聚焦到了DNA表观遗传这一现象上,更具体的说,是聚焦到了DNA甲基化水平和模式。人们已经知道,DNA甲基化会随年龄改变,有预测年龄的潜力。而不断发展的测序技术、机器学习算法,则为年龄预测提供了实现的手段。近一年来,多个研究组选用不同的甲基化位点所构建的预测模型,都成功地证明了模型的预测能力(表1)。其中,平均绝对误差是指预测年龄与实际年龄差值绝对值的平均值,相当于预测模型的准确性。




你讲的甲基化能预测年龄,真的很神奇呀!

甲基化的神奇之处可不止于此哦~基因启动子区域的甲基化可以抑制基因表达,在维持组织特异性、调节发育等方面都用重要的作用;甚至和肿瘤的发生、转移都密切相关。生物学、医学方面的专家已经对甲基化展开了广泛的研究。



那为什么之前法医界没有关注它呢?

从历史发展看,法医学的研究滞后于生物技术的发展。这是由于法医学要求极高的准确性和稳定性,所以对于新技术相对保守。如今随着甲基化研究的逐渐深入和成熟,我们有理由相信,甲基化的研究会引起法医学界越来越大的兴趣,甚至成为法医学研究的下一个热点。

你说研究人员使用机器学习的方法预测年龄。机器学习这个词我听说的,现在好火的,大家都在讨论它。可是它到底是什么意思呢?和法医学研究有又什么关联呢?

机器学习确实是当下最火爆的概念之一。一方面是因为它确实有潜力解决很多难题;另一方面也存在资本炒作的泡沫。实际上,机器学习并不神秘也不复杂。人们近来热衷于谈论“人工神经网络”,但机器学习的概念远不止于此。平时工作中最常见的“线性回归”,就可以看作是机器学习的一种方式。

在我们的提到的研究中,研究人员已经知道甲基化和年龄之间存在一定的关系。但具体是什么样的关系,如何通过甲基化状态来推断年龄,这是未知的。机器学习,就是要通过大量的已知数据,让电脑计算、模拟出甲基化和年龄的关系,并以此来推测未知样本的年龄。


当然,这样的工作需要不少的统计知识。幸运的是,我们有很多开源软件,提供了机器学习的基础代码。我们只需要掌握基本原理,就可以构建模型,让电脑告诉我们答案啦。当然,进一步的分析和改进,还是要依靠研究人员更丰富的理论知识和更深入的研究了。


不仅仅是法医学研究,研究人员在不断探寻机器学习和各类生物学研究的结合方式,尤其是和二代测序相关研究的结合。这是因为,只有海量的数据才能激发机器学习真正的能力。而二代测序的特质,正是这样一个“信息源泉”。二者的结合,将会极大的推动我们对于基因测序信息的理解。


我看到研究人员用了很多种方法来预测年龄,有什么差异吗?

方法并不重要,关键在于这些方法预测的结果是否足够准确。实际上,我们看到最时髦、复杂的神经网络算法并没有显著提高预测的准确性。这是由于每一种技术都有自己的适用条件。神经网络擅长的是从高维、海量的数据中寻找规律和特征。但是,对于本文提到的三篇论文,样本量不过数百。这样的数据量显然是不足以支持神经网络的。刘凡、李彩霞老师的论文(见附录第3篇)直接对比了传统回归模型和神经网络模型,发现两者的预测能力没有差异。这提示我们,要在合适的情景下使用合适的方法。实际上,简单的多元线性回归可能就足以刻画二者间的联系。

听你讲了那么多,那我们是不是已经可以在实际案件中应用这么厉害的工具了?

恐怕我们还要再等等,因为目前的预测模型还不够完善,所以还不足以达到实际应用的要求。举个例子,对于一个50岁的人,模型给出的预测值可能是40-60岁之间。这当然是正确的,但不够精确,限制了该技术在实际案件中的广泛应用。此外,我们可以看到,不同研究组采用的甲基化位点不同,甲基化位点的数量不同,预测模型也不同。可以说,我们还处于这项技术发展的早期阶段,并没有形成共识,没有统一的指导标准。一方面来说,我们需要对甲基化位点有更多理解,需要大规模对甲基化位点进行“筛查”,挑选出合适的位点,并研究不同地区、不同人群的甲基化模式是否存在差异;另一方面来说,我们对于预测模型、算法的理解也需要更加深入。从目前的结果来看,各种算法之间并无显著不同。我们需要对更大量、更复杂的样本类型进行测试,挑选最合适的算法,才能确保预测模型的稳定性。



附录:论文

第一篇文章来自于伦敦国王学院Ballard博士领导的研究组。他们对1156份全血样本进行了全基因组甲基化检测,并通过逐步回归算法挑选出了与年龄预测高度相关的23个CpG甲基化位点,建立的线性回归模型确定性系数(R2)为0.92,平均绝对误差(MAE)为4.6年,见图1。作为对比,研究人员还使用了广义回归神经网络(GRNN)进行建模,获得的模型仅使用16个CpG位点进行预测,并实现了更高的精度:R2为0.96,在训练集中MAE为3.3年,测试集中MAE为4.4年,见图2。在16个位点中,NHLRC1,SCGN,CSNK1D这三个基因的甲基化模式与年龄预测是最相关的。研究人员进一步地在同卵双胞胎(平均58岁)和疾病队列样本中进行验证,该模型误差较大,预测值的MAE分别为7.1年和7.2年。这可能说明两个问题:1. 随着年龄的增大,外界因素对DNA甲基化的影响不断累积、增加,使得年龄的预测变得更加困难。这一点在图1,图2中也可以看出:随着年龄的增大,预测年龄误差变大;2. 疾病可能改变DNA甲基化状态。本模型使用的数据来自血液样本,因此,血液相关的疾病将极大地干扰模型地预测能力。如对贫血患者样本的预测,MAE为14.38年,显著高于其它预测误差。

图1 逐步回归模型。(a)预测年龄(y轴)v.s. 实际年龄(x轴),R2=0.92,MAE=4.61年,标准差(SD)=4.36年;(b)预测误差(y轴)v.s. 实际年龄(x轴)。可以看出,预测误差和实际年龄正相关,即:实际年龄越大,本模型的预测误差越大,且更有可能是高估了样本的实际年龄。61%的预测误差在5年以内;89%的预测误差在10年以内。

图2 广义回归神经网络模型。(a)预测年龄(y轴)v.s. 实际年龄(x轴),R2=0.96;(b)模型预测绝对误差分布,集中在±7.5年以内;(c)预测误差(y轴)v.s. 实际年龄(x轴)。总的来说,此模型中误差的绝对值与真实年龄之间没有显著的线性相关性;但是,随着真实年龄的增大,误差分布更加离散,表明模型对大年龄样本预测能力较差。这与逐步回归中的现象是一致的,说明大年龄样本的预测是年龄预测中的难点;(d)本模型中16个位点对预测误差的贡献值箱图,其中,误差比例计算如下:除去改位点外15个位点进行预测的误差除以全部16个位点预测的误差。其中,第1、14和15三个位点去除后误差最大,表示这三个位点对于预测准确性的贡献最大,也就是上文所述的:CSNK1D,NHLRC1,SCGN,这三个基因的甲基化模式与年龄预测最为相关。


第二篇文章来自比利时鲁汶大学Bekaert博士领导的研究组。研究人员使用逐步回归法分别选择了四个基因 (ELOVL2, EDARADD, PDE4C and ASPA)中与年龄预测最为相关的四个甲基化CpG位点,建立预测模型。这篇文章的特殊之处在于:它指出了以往线性预测模型的缺陷:以最小二乘法为基础的线性回归有一系列的前提假设,如齐方差假设。然而,实际上使用甲基化进行预测,所得误差并非均质的,而是与年龄相关,也就是上文所说的:年龄越大,预测误差越大。


对于这一问题,本文章进行了深入的探讨,见图3。对于这样的残差性质,研究人员研究了更适合的两种回归方法:加权最小二乘回归(WLS)模型和分位数回归模型。WLS是在最小二乘的基础上进行加权,给方差小的项加较大的权重,给方差大的项加较小的权重,实现整体上的方差均衡;而分位数回归顾名思义,是建立因变量和自变量分位数之间的线行关系。这两种方法的特点在于:允许自变量方差改变。研究人员使用69份样本的测试集,对三种回归模型进行验证,结果见表2和图4。与研究者的预期相反,WLS和分位数回归并没有显著降低平均绝对误差(MAE),反而降低了预测的准确性。这是由于本研究中,残差的偏离程度相对较小,最小二乘法仍可以得到较为精确的近似,因此新模型没有改善MAE。准确性的下降可以用一个例子来说明:假设实际样本的年龄为20岁,最小二乘给出的预测可能时10-30岁,而分位数回归给出的预测可能时17-23岁。显然,分位数估计给出的预测值更“紧凑”,更好地表现了真值;然而,一旦出现“异常值”,分位数模型也就更容易出错。

图3 四个甲基化位点的残差分析。结果表明,使用甲基化进行年龄预测时,残差与年龄相关,尤其是ELOVL2,PDE4C和ASPA这三个位点,残差与年龄间存在相关性,但并非线性相关。这提示我们,一般的最小二乘法可能不适用于这样的情形。

图4 三种模型的预测能力,浅蓝色虚线为模型的95%预测区间,红色叉号表示未能成功预测的样本。(A)最小二乘回归,预测区间恒定。可以看到,该模型对于中、老龄样本预测能力良好;但是,对于小龄样本,预测区间过宽,不够准确;(B)加权最小二乘回归,预测区间相对于回归直线对称。可以看到,预测区间前窄后宽,解决了普通最小二乘法在年轻样本中预测区间过宽的问题。然而,这降低了模型对年轻样本异常值的容忍度,降低了准确性;(C)分位数回归,预测区间对于回归直线不对称。这进一步缩小了预测区间,使得预测值更精确。这进一步降低了模型对异常值的容忍度,降低了准确性。


这里要明确两个概念——准确度:预测的区间是否包括了实际的年龄。如,实际样本为20岁,那么预测区间为10-30岁就是准确的;精确度:预测的区间的长度。如,实际样本为20岁,那么15-25岁的预测区间就要比10~30岁的区间更精确。显然,这两者间存在矛盾。这一篇文章表明了:对于线性回归模型,增加模型预测的精确度,必然损害模型的准确度。那么,对于实际工作,我们就要在一定的准确度下,尽可能地提高精确度。


第三篇文章来自中科院基因组所刘凡博士和公安部物证鉴定中心李彩霞博士带领的研究组。研究人员使用逐步回归算法和穷举搜索算法,锁定了9个甲基化位点,建立起三种模型:多元线性回归(MLR)、支持向量机(SVM)以及人工神经网络(ANN)。研究人员对比了MLR与当下火热的机器学习算法间预测能力的差异,见表3。结果表明,这三种模型的预测能力没有显著的差异。这种情况下,简单易行的线性回归可能是更好的选择,没有必要使用复杂的机器学习算法,如ANN,引入不必要的计算负担。


参考文献:
1. Vidaki A, Ballard D, Aliferi A, Miller TH and Barron LP. DNA methylation-based forensic age prediction using artificial neural networks and next generation sequencing. Forensic Science International: Genetics. 2017. 28:225-36.
2. Smeers I, Decorte R, Van de Voorde W and Bekaert B. Evaluation of three statistical prediction models for forensic age prediction based on DNA methylation. Forensic Science International: Genetics. 2018 . 34:128-33.
3. Feng L, Peng F, Li S, Jiang L, Sun H, Ji A, Zeng C, Li C and Liu F. Systematic feature selection improves accuracy of methylation-based forensic age estimation in Han Chinese males. Forensic Science International: Genetics. 2018. 35:38-45.

4000192196    产品咨询info@microread.com   CN | EN| 友情链接 | 联系我们

Copyright 2019 北京阅微基因技术股份有限公司京ICP备09053524号