2.3 PCA分析(principal component analysis) 数据经过标准化处理后,对样本进行主成分分析,该分析能从总体上反应各组样本之间的总体代谢差异和组内样本之间的变异度大小。软件采用瑞典Umetrics公司的SIMCA14.1,数据采用UV格式化(Unit Variance Scaling)和平均中心化(Mean-Centered)处理[1],以获得更加可靠且更加直观的结果。软件进行自动化模型拟合分析,获得最可靠数学模型的主成分数目。例图如下所示: 图4. Scores plot of total PCA
图5. Scores plot of PCA for two groups
Base weight type
Description
UV
Variable j is centered and scaled to "Unit Variance", i.e. the base weight is computed as 1/sdj, where sdj is the standard deviation of variable j computed around the mean .
Par
Variable j is centered and scaled to Pareto Variance, i.e. the base weight is computed as 1/sqrt(sdj), where sdj is the standard deviation of variable j computed around the mean. Pareto scaling is in between no scaling and UV scaling and gives the variable a variance equal to its standard deviation instead of unit variance.
Ctr
The variable is centered but not scaled (ws = 1)
2.4正交偏最小二乘法判别分析(OPLS-DA) 为了消除与分类不相关的噪音信息,同时也为了获得导致两组之间显著差异的相关代谢物信息,我们采用正交偏最小二乘方判别分析(OPLS-DA)过滤与模型分类不相关信号即正交信号,获得OPLS-DA模型。对模型的质量用交叉验证法进行检验,并用交叉验证后得到的R2X 和Q2(分别代表模型可解释的变量和模型的可预测度)对模型有效性进行评判。在此之后,通过排列实验对模型有效性做进一步的检验。 例图如下所示: 图6. Scores plot of OPLS-DA(2D) 图7. Loading plot of OPLS-DA[2]
[2] 载荷图(loading plot)的横坐标代表每个物质在第一主成分上的载荷大小(cosα),纵坐标代表每个物质在第二主成分上的载荷大小(cosβ)。 图8. Permutation test of OPLS-DA[3] 图9. S-plot of OPLS-DA [4] [3] 置换检验的横坐标代表随机分组的Y与原始分组Y的相关性,纵坐标代表R2和Q2的得分。 [4] S-plot的横坐标代表每个物质在第一主成分上的载荷大小(cosα),纵坐标代表每个物质和第一主成分相关系数(可靠性)的大小。
2.5差异脂质化合物筛选 通过OPLS-DA分析过滤掉了不相关的正交信号,因而获得的差异性代谢物更加可靠。本项目采用 OPLS-DA 模型第一主成分的VIP(Variable Importance in the Projection)值(阈值>1),并结合学生氏t 检验(t-test)的p 值(阈值0.05)来寻找差异性表达代谢物。