Integrated multi-omics analysis of ovarian cancer using variational autoencoders_综合

摘要：

癌症是一种比较复杂的疾病，它作用于各种分子水平（DNA、RNA、Proteins），使它们停止对细胞功能的调节。因此我们需要综合的对这些分子水平的数据进行多组学分析，来了解那些致癌以及发展异常的细胞功能。

近年来，深度学习（DeepLearning）已经成为了综合多组学数据来对癌症进行分析的有用工具。但是，多组学数据常常伴随高纬度、数据不平衡、分子特征过多和患者样本较少等缺点。这些缺点使基于深度学习的多组学分析变得极其困难。

因此基于深度学习的降维技术、包括变分自编码器（VAE）是平衡多组学数据的潜在解决方法。但是，目前基于VAE的集成多组学分析方法很少，且仅仅限于泛癌。

本文中，我们通过VAE学习来对特征进行降维，以及对VAE的改进（最大平均差异MMD-VAE），来对卵巢癌进行综合多组学分析。

首先，我们设计了VAE和MMD-VAE的深度学习框架。然后我们通过癌症样本识别、分子亚型聚类和分类以及生存分析，使用该框架对卵巢癌进行单组学、二组学、三组学数据分析。结果表明，基于MMD-VAE和基于VAE可以对TCGA数据集的转录亚型进行分类，准确率在93.2-95.5%和87.1-95.7范围之间。

此外，生存分析的结果表明，基于VAE和MMD-VAE的组学数据可以用于癌症预后。从结果中，我们得到了如下结论：

VAE和MMD-VAE优于现有的降维技术。
综合多组学分析与对应的单组学相比表现更好或更相似。
MMD-VAE在大多数组学数据集中的表现优于VAE。

数据获取

在研究中我们使用了单组学和多组学数据，我们使用不同的高维单组学数据来生成多组学数据

表1总结了使用数据的关键特征。数据集的特征：

组学计数（Omic count）
组学类型（Omic type，如Genomics基因组学、Transcriptomics表观组学、Epigenomics转录组学以及组合）
组学数据（Omic data，如CNV、mRNA、DNA methylation、、RNAseq）
输入特征维度（Feature size）
样本大小（已处理）
用于数据值的单位（Data value，如DNA甲基化的β值）

此外，CNV/CNA表示拷贝数变异/改变，mRNA表示基因表达阵列，DNA甲基化表示CPG islands，RNAseq表示通过RNAseq进行基因表达。

我们从UCSC Xena数据库中下载了四个单组学TCGA数据集，一个用于mRNA、CNV/CNA和RNAseq，两个用于DNA甲基化。除了第二个DNA甲基化数据集外的所有单组学数据集，其他的均来自TCGA卵巢癌（OV）数据。他们包括癌症和正常样本。我们将这些单组学数据串联起来形成双组学和三组学数据集。表1中的“特征维度”和“样本大小”可以看出特征过多，但是具有临床标签的样本数量相对较少引起失衡。例如一个三组学只有292个样本，但是有72885个特征。

数据处理

刚下载的数据集不能直接用于模型，需要进行预处理。如下操作：

首先，我们将单组学数据相交，以找到常见和相同大小的样本。CNVs、mRNA和DNA甲基化数据集的交集共享481个样本，CNVs、DNA甲基化和RNAseq的交集共享292个样本。
我们识别并删除了四个组学数据中为缺失/0/NA值。除了RNAseq之外，所有数据文件都没有缺失/0/NA值，并且从RNAseq数据集中删除了212个具有零表达值的输入特征或基因。
使用min-max进行标准化，使所有特征在多组学分析中都具有同等重要性。
最后，将标准化的单组学数据进行连接，形成双组学和三组学数据集。如CNVs+RNAseq、DNAmethylation+RNAseq和CNVs+DNAmethylation+RNAseq数据集有292个样本，其他的有481个样本。

第二个DNA甲基化数据集非常不平衡，因为数据集中有603个癌症样本，仅仅有10个正常样本。我们使用Borderline SMOTE SVM通过对正常样本（10-283）重采样来减少类的不平衡。重采样后，与原始613个样本相比，我们有了886个样本，因此增加了正常和癌症样本之间的类比（31.94：68.06）。

VAE/MMD-VAE框架

VAE模型构建步骤如下：

编码器根据先验或潜在分布进行编码生成每个潜在的变量。重要的是编码器引入了变分分布来估计后验并解决真实后验在计算X或潜在分布的难点。
采样：采样器通过编码或编码分布中采样，获得来自潜在空间的采样点。
解码：解码器从条件分布中解码采样点，并重新构建输入的x。在这一步，VAE还是用由重构项和正则化项组成的损失函数来计算损失或误差。
反向传播：最后，计算出损失通过网络反向传播更新模型

癌症的聚类和分类

癌症样本的识别和分子亚型可用于患者的预后和治疗分层以及改善癌症的管理。因此卵巢癌样本和分子亚型的正确聚类和分类对于疾病的管理很重要。作者在（文中13，25，53的论文中）已经确定了四种可能具有临床意义的卵巢癌转录亚型。这四种高级别浆液性卵巢癌（HGS-OVca）亚型被命名为免疫无反应、分化、增值和间充质。这项工作中使用的数据集是关于HGS OVca的，临床数据包括大多数样本的这些分子亚型。尽管这些分子亚型是转录的，但是由于他们与转录的数据相关性或关联，因此他们可以用于其他组学数据分析。例如作者[55论文]报道DNA甲基化通常与启动子区域的基因表达呈负相关，而DNA甲基化通常与基因体中的基因表达呈正相关。

VAE或MMD-VAE生成的潜在特征（LF）可用于对癌症样本、亚型（包括卵巢癌的现有转录或分子亚型）进行聚类和分类。利用潜在特征的聚类和分类性能可以证明VAE或MMD-VAE的降维能力。我们使用从卵巢癌的单组学、双组学和三组学数据中学习到的潜在特征证明了VAE 和MMD-VAE的降维能力。并用于一下方面：

聚类：我们可以使用VAE/MMD-VAE模型学习到的LF将样本聚为癌症与正常和分子亚型。我们对所选样本使用了单组学、双组学、三组学特征的二维和三维嵌入，并使用散点图对聚类样本进行可视化。所选样本的组学特征的二维和三维嵌入是通过从学习的LF中选择第一个2和3个LF来完成的（图1B左侧）。然后，我们使用嵌入的特征将样本分为两组用于癌症识别（癌症与正常样本），并使用2D和3D散点图将分子亚型分为四组（4个分子亚型）
分类：我们使用基于ANN的分类器通过无监督过程学习的LF对癌症样本和分子亚型进行分类。对于所有组学数据，我们选择了VAE/MMD-VAE学习的前两个和所有LF对样本进行分类。对于通过监督过程学习的LF，对癌症样本和分子亚型进行分类。对于所有组学数据，我们选择了VAE/MMD-VAE学习前两个和所有LF对样本进行分类（图1B右侧）。对于通过监督学习过程学习LF，我们使用VAE/MMD-VAE架构的分类器对分子子类型分类。所有分类实验均使用5折交叉验证。在每一轮验证中，80%的数据用于训练，其余20%的数据被排除在训练之外，用于单独测试。我们在准确度、精确度、召回率和F1分数方面展示了两个分类器的分类性能。我们还通过有监督的VAE/MMD-VAE模型学习的LF完成的每个分类任务提供一个混淆矩阵。为了简单起见，我们选择了前两个LF用于聚类和分类。但是，可以从学习的LF中选择任意2个LF，其性能将与所呈现的相似。

对于无监督聚类VAE/MMD-VAE模型学习的LF，我们将聚类和分类性能与两种传统的降维方法进行了比较，即PCA和t-SNE。我们还说明了传统方法（t-SNE）和MMD-VAE/VAE的组合在分子亚型聚类中的表现。

生存分析

确定卵巢癌稳健存活的亚型组（HGS-OVca）可以显著改善患者的管理。HGS-OVca的现有分子亚型，例如转录分子亚型，可能在生存亚组预测中没有用，因为这些研究大多在不依赖生存数据的情况下进行亚型分型。在这项研究中，首先我们使用现有的转录亚型进行生存分析，然后使用学习LFs推断和预测HGS-OVca的生存亚群，我们按照如下3步过程进行分组及相应的生存分析：

推断生存亚组：我们为VAE/MMD-VAE产生的每个LF建立了单变量Cox比例风险（Cox-PH）模型（图1C）.我们确定了显著Cox-PH模型的临床相关LF。接下来，我们使用这些减少的临床相关的LF使用K均值聚类算法对样本进行聚类。我们使用R包NbClust来确定最佳K值（簇数）。NbClust最多可以计算30个索引或指标，以确定数据中的最佳聚类数。他还通过多数规则确定K的最佳阈值。在我们的所有11个数据集中，最佳值介于2-4之间。考虑到样本量481和292且事件？数量较少，我们选择K=2，这意味着我们识别、推断了两个生存子组。
预测新样本的生存组标签：在获得来自K均值聚类的生存子组标签后，我们使用基于SVM的分类器（图1c）来预测新样本的生存子组标签。在大多数情况下，我们使用了所有数据集的60%/40%（训练/测试）来获得足够的测试样本生成评估指标。我们使用R包E107161的调整函数来训练SVM模型，因为它通过交叉验证（5折）调整模型参数并确定训练数据集的最佳模型。在每一轮验证中，60%数据训练，其余的作为测试。最后我们使用测试数据集来预测生存子组或风险标签。我们使用Cox-PH模型和Kaplan-Meier生存曲线来评估生存预测性能。

结果展示

我们使用开发的VAE/MMD-VAE 框架进行癌症样本识别、分子亚型聚类和分类以及使用TCGA卵巢癌数据的生存分析。结果证明了VAE和MMD-VAE在降维和生存分析的性能。

我们在预处理的组学数据集上使用三个不同的神经元（LFs=32，64，128）训练和测试来开发VAE和MMD-VAE模型，以展示集成的多组学数据分析能力。我们使用图1所示的网络架构实现了VAE/MMD-VAE的DL模型。我们在无监督和有监督的设置中测试了模型。我们使用学习率为1e-3的Adam优化器，因为与其他随即优化相比，他的性能更优越。由于空间限制和类似性能模式，我们仅报告了LF=128的结果。所有的分类性能都唔那个经过交叉验证。产生两组结果、一组关于癌症样本识别和分子亚型聚类和分类，另一组关于生存分析。重要的是，我们在四个单一组学、五个二组学和两个三组学数据集上进行了实验，由于篇幅有限，我们只提供了每个组学数据的结果。

降维

我们已经通过卵巢癌样本识别、分子亚型聚类和分类证明了开发VAE/MMD-VAE的降维能力。我们还对具有潜在特征集的TCGA卵巢癌数据集进行了生存分析。

聚类

癌症与正常样本：我们使用VAE/MMD-VAE的无监督来学习886个样本的DNA甲基化数据的LF。我们选了了128个LF中的前2个LF将样本分为两组（癌症与正常）。DNA甲基化数据集输入特征的二维嵌入被绘制在PCA、t-SNE、VAE和MMD-VAE的散点图上。如图2所示，即使在无监督的情况下，由于输入特征的判别行，所有降维方法的聚类精度都超过95%。

MMD-VAE通过正确聚类886个样本中的883个样本而优于其他样本。然后，簇之间的距离是一个问题，尤其是在MMD-VAE中，VAE和MMD-VAE的改进如下：将t-SNE与他们结合起来。与正常样本相比，癌症样本在簇内紧凑。正常样本中的亚群可能是由于样本内的差异。

分子亚型聚类：我们通过无监督和有监督的VAE和MMD-VAE模型学习的LF对转录亚型进行聚类。对于通过无监督模型学习的LF，我们选择了学习到的128个LF中的前2个LF来聚类分子亚型。将单组学、二组学和三组学数据集输入特征的二维嵌入绘制在PCA、t-SNE、VAE和MMD-VAE的散点图上。

在补充图9所示，所有的降维方法都无法使用单组学和三组学数据集将样本聚类为四个亚型。这是预期的结果，因为组学数据集对转录组亚型没有辨别力或很好的代表性。因此无监督的PCA、t-SNE、VAE和MMD-VAE模型难以对转录组亚型进行聚类。在这种情况下，我梦可以使用这些模型的监督版本，尤其是VAE和MMD-VAE。我们使用有监督的VAE和MMD-VAE模型从单组学、双组学和三组学数据集中学习面向任务（转录组亚型）或引导的LF。我们选择了学习到的128个LF中的前2个LF来聚类分子亚型。图3显示了监督VAE和MMD-VAE的部分聚类结果。如图3a-j所示，在所有组学数据集中，与无监督对应物相比，有监督的VAE和MMD-VAE显著提高了他们的聚类性能。如图所示，转录（mRNA-mono-omics）数据集优于其他数据集，主要是其他单体数据集，斌并且MMD-VAE在大多数数据集中优于VAE。此外我们将t-SNE与VAE和MMD-VAE相结合，提高了性能。

分类

癌症样本识别：我们使用基于SVM的分类器通过无监督PCA、tSNE、VAE和MMD-VAE学习的LF从正常样本中识别癌症样本。补充文件的表3显示了886个样本的DNA甲基化数据集的分类性能。除t-SNE外的所有模型都具有超过99%的分类准确率，且具有非常高的精度（0.99）、召回率（0.99）和f1分数（0.99）.DNA甲基化数据的判别特征（癌症与样本）是这种分类性能的主要原因。分子亚型分类：与转录亚型聚类一样，我们在分子亚型分类中使用无监督和有监督的VAE和MMD-VAE模型学习到了LF。对于无监督，我们还比较了通过VAE和MMD-VAE学习的LF通过PCA和t-SNE学习的LF的分类性能。补充文件中表4展示了基于ANN的分类器分类性能，该分类器利用通过这些无监督模型从单组学、双组学和三组学数据集中学习LF。正如我们从表中看到的，使用PCA和t-SNE生成的LF的分类器对所有组学数据集中现有的转录亚型的分类很差。另一方面，使用VAE和MMD-VAE生成的LF的分类器可以对单组学（主要是mRNA）、双组学和三组学数据的转录亚型进行分类，准确率在73.2-81.44%范围。但是，在许多实际应用中，这些性能可能无法接受。转录亚型组学数据集中缺乏判别性特征是准确性低的主要原因。LFs的监督学习可以提高分类性能。在监督学习中，VAE或MMD-VAE和分类器使用转录亚型作为监督共同学习LF。我们在单组学、双组学和三组学数据集上训练了联合模型，分别测试了模型。所有矩阵的分子亚型分类性能都显著提高。除了CNV和甲基化数据集，MMD-VAE和VAE的准确率分别在93.2-95.5%和87.1-95.7%的范围内，具有较高的准确率、召回率和f1分数.CNV和DNA甲基化的表现并不令人满意，因为他们不是转录组学数据。即使是这些非转录组数据集，尤其是DNA甲基化数据集，也表现出良好的分类性能，准确率范围在72.3-75.2%。性能可能是优于组学数据集之间的关联和相关性

生存分析

我们使用 11 个数据集进行了全面的生存分析，包括单组学和多组学数据，特别是对于具有现有转录亚型和推断生存/风险组的样本。补充文件中的图 4a（481 个样本）和图 11（292 个样本）显示了现有转录亚型的 Kaplan-Meier 生存曲线。Te 亚型在临床上不显着或与患者/样本的存活率无关（对数等级 p > 0.05）（补充文件中的图 4a 和图 11）。

对于基于 LF 的生存分析，我们对来自每个数据集的 128 个 LF 中的每一个进行了单变量 Cox-PH 回归。我们确定了 5-22 个与生存相关的 CRLF。每个组学数据集的 CRLF 数量是不同的。（例如，我们发现 CNV 数据集有 22 个 LF，而集成的 CNV、DNA 甲基化和 mRNA 数据集只有 5 个 LF）。我们使用两个推断的亚组对样本（481 和 292）进行了两阶段生存分析。

在第一阶段，我们绘制了所有样本的 Kaplan-Meier 生存曲线。正如在 VAE 和 MMD-VAE 推断组的 Kaplan-Meier 生存曲线（图 4b-f）中所见，所有组学都存在显着的生存差异（对数秩 p > 0.05）数据接受三组学（对数秩 p = 0.4 高于阈值 α = 0.05），尤其是对于 VAE。这个结果可能是由于 VAE 学到的信息量不足的 LF。

在第二阶段，我们使用基于 SVM 的分类器预测生存子组标签，使用 60/40 的分割比将样本分为训练和测试数据。在预测测试数据集的生存组之后，我们对训练样本运行了两种多变量 Cox-PH 回归（一种用于临床，一种用于组合 = 亚组 + 临床协变量），然后使用测试数据集的标签预测生存。对于临床协变量，我们考虑了所考虑患者的三个临床病理特征：（i）诊断时的年龄，（ii）临床或 FIGO 分期，以及（iii）等级。我们计算了多变量 Cox-PH 回归的训练和保留测试样本的 C 指数、Brier 分数和模型的 p 值。如补充文件中的表 7 所示，训练样本产生了 0.62 - 0.68 之间的中等高 C 指数，0.17 - 0.19 之间的低 Brier 分数，Cox-PH 模型的显着对数秩 p 值 < 0.05。对于具有较低 C 指数 (0.60 ? 0.66) 和较高 Brier 分数 (0.19 ? 0.23) 的保留数据集观察到类似的趋势，Cox-PH 模型的对数秩 p 值 < 0.05 .重要的是，如补充文件中的表 7 所示，与仅临床变量相比，在组合生存分析的情况下，VAE 和 MMD-VAE 的性能得到了改善。这证实了确定的生存亚组不会与临床病理变量混淆，而是会改善预后。最后，我们绘制了预测生存组标签的 Kaplan-Meier 生存曲线。如补充文件中的图 12a-f 所示，与图 4b-f 类似，所有预测生存组之间的所有组学（对数等级 p> 0.05）存在显着的生存差异（呈现）组学数据。然而，很少有数据集的 p 值高于阈值 (0.05)。数据集的预测生存组之间的较高 p 值或差异不大的潜在原因可能是 (i) 样本量较小，几乎没有事件可以识别差异，以及 (ii) 过多的压缩可能掩盖了临床相关特征。

最后，我们提出了一种使用线性模型从临床相关 LF 中识别潜在预后生物标志物的简单方法。图 5 显示了 CRLF 与三组学 (CNV_mRNA_methylation) 数据的输入特征之间的关联。例如，我们的映射已将 NDRG2 基因确定为卵巢癌的潜在生物标志物 69。 Tus，我们可以确定其他负责任的基因或 cgp 岛，它们可以共同作为多组学预后生物标志物。然而，线性映射并不是从学习的 CRLF 中识别一组生物标志物的最佳解决方案，因为它只能识别 ± 0.5 内的相关值。我们需要朝这个方向进一步研究。