白癜风注意事项 http://pf.39.net/bdfyy/zjft/160311/4785535.html

DNA甲基化是一种经过充分研究的遗传修饰,可调节真核生物的基因转录。其替代已被认为是癌症发展的重要组成部分。在这项研究中,使用《癌症基因组图谱》中的DNA甲基化k数据来评估DNA甲基化数据对30种癌症类型的癌症分类的有效性。

采用一种新的高维数据选择方法(超过45万个)。首先引入方差过滤以减少尺寸,然后使用递归特征消除(RFE)进行特征选择。解决了从大量甲基化位点中选择一小部分基因的问题,通过简约模型被证明是有效的,其准确率超过91%,优于其他使用DNA微阵列和RNA序列数据的研究。

基于20个模型的性能,这些模型基于4个估算器(随机森林,决策树,额外树和支持向量机)和5个分类器(k最近邻,支持向量机,XGboost,LightGBM和多层感知器),比较并检查RFE算法的稳定性。

结果表明,额外树和catboost分类器的组合模型在癌症识别中提供了最佳性能,对于20、30、40和50个特征,其总体验证准确度分别为91%,92.3%,93.3%和93.5%。还通过富集分析探索了50个选定基因在癌症发展中的生物学功能,结果表明,通过实验已经确定了16个主要特征中的12个对癌症具有特异性。因此,该方法可用作确定特定癌症的实际临床病理状态的辅助诊断方法。

本篇讲解应用的特征选择方法从数据集中提取重要的特征,然后分析结果。

额外树作为的估算

在方法学部分,总共使用了20个模型来寻找RFE算法的最佳估计器,结果如下。通过对这些组合模型中的每一个进行了10次交叉验证,并与其他论文得出的结果相同,这里的精度是基于它在测试集上的性能。我们首先选择的功能数量是20,因为创新性是为了寻找模型功能最少,但也保持相对不错的准确性。

图4每个模型的测试准确性

从图4中可以看出,额外树算法作为RFE算法的估计量,因为额外树的模型比其他模型的交叉验证精度高10。另外,由于此模型可以很好地提升分类器lightgbm和xgboost的性能,同时还测试了Catboost分类器的得分。

20分的模型表现

首先在20个点上做实验,采用这个作为特征数的下限。得到如下20个特征:

表种选定的CpGs

在研究中,获取模型性能的sklearn指标包括真阳性、真阴性、假阳性和假阴性。以召回分数、精度分数、f1分数、整体准确率等几个标准作为论文的主要指标。由于任务是一个多类分类,由于数据集中每个类的样本并不完全相同,所以我们选择参数“weighted”作为指标的关键参数。有如下公式:

总体准确性是正确预测在检查的案件总数中的比例。精度是指数据类标签与分类器标签之间的一致性,如果从每个文本决定的总和来计算的话。召回是指分类器根据每个文本决定的总和来识别类标签的有效性。F1得分是精度和召回率的调和平均值。基于这些指标,我们得到了三种分类器仅包含20个特征的模型性能。

表2三种分类器的性能比较

因此,额外树加catboost分类器的组合模型在数据集上提供了最佳性能,使用这种组合来演示混淆指标(图5)。

图点的混淆度指标

矩阵对角线中的元素代表模型可以正确预测的样本,混淆指标中的其他元素都是错误预测的样本。

从结果中,每30个类别中有17个的准确率超过90%,在30个类别中有25个类可以准确地预测80%以上,但是,仍然存在一些哪些类很难区分。ESCA样本中有34%错误地预测为STAD,63%的READ数据不正确地预测为COAD和40%的UCS样本被错误地预测为UCEC。

不平衡的数据集可能是一个因素。很明显,根据相关数据,我们对于UCS的样本数只有57个,而UCEC的类相对较大,有个,所以从数据的质量来看,可以合理的预测为另一个拥有较多数据的类。

另一方面,与Li()的工作类似,尽管他们取得了总体高在测试集的准确性上,他们仍然无法对三种肿瘤类型进行分类,例如READ(直肠腺癌)和COAD(结肠腺癌)。该实验再次在这里展示了在READ和COAD之间进行分类的困难性,接下来直接使用额外的树作为rfe提取特征的估计量和使用catboost分类器作为预测模型。在这里使用的指示器与上面相同,并得到如下结果(图6)

从图6可以看出,模型的性能不断增加,直到达到40点,此处的斜率开始下降。目标是寻找效率最好的解决方案(精度较高的特征数量最少),其中发现具有40个特征的解决方案更好,然后再分析模型的混淆度量。

通过实验对比,与20分相比,UCS类的准确率明显更高,ESCA类也是如此,因此这两个类可以通过足够多的特征实现相当好的总体交叉验证精度。同时,在包含40个特征的30个类别中,有21个类别可以达到0.9以上的准确率,而20个特征中只有17个。简而言之,该解决方案仅使用40个识别符就能够预测30种癌症类型,使用DNA甲基化值的数据,总准确率为93.3%。

测试模型的稳健性

通过模型检验RFE算法的收敛性。

RFE检查

首先,检查功能的交集。由于RFE算法是一种向后的逐步选择方法,即较少的特征的解最好包含在较大的特征集中,然后计算精确的交集,如下所示。

表3交集的元素

因此,由于包含率高,模型的收敛性好。需要提到的是,由于需要将个过滤后的标识符减少到20个,所以前20个选择的特征应该是最稳健的,然后是后20个特征(20-40)。所以20点与50点的重叠特征大于20点与40点的重叠特征是合理的。

其次,深入研究交点的性能。

图10由不同数量的CPGS组成的模型的一系列指标

从上面可以看出,16点解(20点与30点的交点)和23点解(30、40、50点的交点)确实遵循趋势。需要注意的一点是,当特征数小于20时,指标会下降,这说明20个特征可以作为实验的一个很好的起点。

基因和生物学意义

富集分析

在从数据中提取标识符(CpGs)后,我们往回定位找到相关基因,并利用metascape对DisGeNET和GO生物过程进行富集分析。收集p值0.01、最小计数3和富集因子1.5(富集因子是观测计数和随机预期计数之间的比率)的项,并根据它们的隶属度相似性将其分组成簇。具体来说,p值的计算基于累积超几何分布,q值的计算使用Banjamini-Hochberg程序来考虑多次检验。以下是对DisGeNET富集分析的总结。

图11DisGeNET中富集分析摘要

根据Pinero等(),DisGeNET收集了与人类疾病相关的基因和变异。因此,此次目的是测试通过数值算法提取的特征是否具有生物学意义。值得一提的是,因为这里的指标是-log(p),这意味着一个更大的数字导致更大的意义。因此,在图中确定了前8种均为癌症或相关恶性的疾病(嗜酸细胞性肿瘤、肺癌、结直肠癌、甲状腺恶性肿瘤和结直肠恶性肿瘤。

图12用集群ID着色的丰富术语网络

接下来,确定所有统计丰富项累计超几何p值和富集因子计算和用于过滤。然后,重要的术语被分层地聚类成一棵基于Kappa的树,统计它们的基因成员之间的统计相似性。然后采用0.3kappa分数作为阈值,将树转换为术语簇。然后我们选择代表从这个集群的一个子集,将其转换为一个网络布局。更具体地说,每一项由一个圆圈表示节点,其大小正比于输入的数量基因落入这一项,和它的颜色代表其集群的身份。相似度评分0.3的术语通过一条边链接。如图可以看出,很明显,第一个polygan收集了大多数项,因此需要更深入的分析。下表(表4)是第一个多聚根中的10个项及其相关的LogP值和基因。基因HOXA9,HOXB1,FGF18,SH3PXD2B和ZMIZ1都包含在我们的16个重叠特性中,这算法在生物学上是受支持的。

表4图12中丰富术语的详细信息

基因注释

在本节中将对重叠的特征(20,30,40,50个解决方案的交集)进行基因注释。这些基因及其与特定癌症的对应关系如下。

表5中16个重叠特征中有12个与癌症有关

由IFFO1组成的核骨架通过在肿瘤发生过程中固定断裂的DNA末端来阻止染色体易位,而染色体易位是多种癌症发生和发展的主要原因。IFFO1的失活或其与XRCC4或laminA/C的相互作用导致断端活动性和染色体易位频率的增加。

ZMIZ1基因编码PIAS(激活STAT蛋白抑制剂)家族的一个成员。编码蛋白调控多种转录因子的活性,包括雄激素受体、Smad3/4和p53。Rogers()证明ZMIZ1可能对肿瘤细胞具有选择性优势,这表明ZMIZ1与肿瘤发生之间存在偶然的联系。

GBAP1是一种伪基因,它被定义为与已知基因在不同位点的相似性相近的非功能基因。目前已有研究揭示GBAP1在胃癌风险中的表观遗传调控、生物学功能和临床应用。

HOXB1作为一种致癌基因在多种肿瘤中发挥着重要作用,结果表明HOXB1基因在胶质瘤中是一种受miR-调控的肿瘤抑制因子。

FGF18在激活Akt/GSK3β/β-catenin通路后参与乳腺癌细胞,这使得FGF18成为乳腺癌可能的候选靶点。

在多种癌症类型中,TBC1D16被发现与肿瘤进展和转移相关。在乳腺癌和转移性肿瘤中观察到TBC1D16的低甲基化。

SH3PXD2B编码一个具有一个PX结构域和四个Src同源3结构域特征的适配蛋白。编码的蛋白是podosome和invadopodia形成所必需的,并参与多种细胞类型的细胞粘附和迁移。已经证实,podosome和invadopodia的抑制剂形成可能在血管疾病和癌症的治疗中有应用价值。

HOXA9在肺癌中表达下调,作为肿瘤进展抑制因子,与肺癌细胞的侵袭性生长密切相关。HOXA9包含一个同源框结构域,可与DNA结合并调控下游基因表达。此外,外源性上调HOXA9可抑制肿瘤细胞的侵袭和迁移,通过抑制核因子(NF)-kb的活性来抑制锌指2(SNA12/SLUG)的表达。

PRKCE通常是相关的蛋白激酶C的表达ε(PKC)。编码由PRKCEPKC通常是一种酶与细胞转化和肿瘤发生有关。PKC的作用下,Ras/Raf通路被激活,导致基因的转录参与细胞增殖和生长[81]。

EPAS1基因负责hf2α的表达,而hf2α是缺氧诱导因子(hypooxygen-induciblefactor,HIF)的关键成分,与缺氧条件下肿瘤的发展相关。EPAS1在结直肠癌中受DNA甲基化的转录调控。对EPAS1的研究表明,在结直肠癌患者中,EPAS1调控区存在明显的DNA高甲基化,这与原发癌组织中EPAS1mRNA水平的降低有关。

NKX6Bis是一个位于染色体(Chr)q26远端的小鼠同源盒基因,在许多脑肿瘤中经常发现该区域的杂合性缺失。研究表明,NKX6B可能是脑肿瘤,特别是少突胶质细胞瘤的候选肿瘤抑制基因。

PLAC8是一种多功能蛋白,在肠、肺、脾和先天免疫细胞中高表达,参与多种疾病,包括癌症、肥胖和先天免疫缺陷。

MARCH8已被证明在稳定状态下从细胞表面下调tnf相关凋亡诱导配体受体1(TRAIL-R1),并具有为癌症患者提供治疗益处的潜力。此外,库马尔()确定MARCH8差异表达的基因在食管鳞状细胞癌(ESCC)使用19.1k互补脱氧核糖核酸微阵列和后发现Shivam()分析了其在光电子能谱表达式和临床相关性,观察到沉默MARCH8影响扩散,迁移/入侵,集落形成潜在的ESCC和凋亡细胞。

结论

在本研究中,成功地使用DNA甲基化k中的少量标识符对30种癌症类型进行分类。解决了从大量DNAK甲基化位点中选择一个小的基因亚群的问题,简化模型在20、30、40和50个特征上的准确率分别达到91%、92.3%、93.3%和93.5%。此外,使用该框架选择的16个顶级特征中有12个与癌症发展有关,该算法从生物学角度上得以支持。因此,该方法可以作为一种辅助诊断方法来确定癌症类型的实际临床病理状态。

另一方面,使用甲基化值区分COAD(colonadenocarcinoma)和READ(rectumadenocarcinoma)类的问题,这与Li()的观点一致。由于Li使用的RNA-seq数据与该次实验有些不同,未来有必要在这一领域做更多的研究。

参考:

  • 下一篇文章: 没有了