干货 | 代谢组数据预处理(二):巧踢离群值,让你的数据会说话

2022-04-14 16:14:24, 小迈 武汉迈特维尔生物科技有限公司


导 读

离群值(outliers)是指在一份数据中,与其他观测值具有明显不同特征的那些观测值,也称为异常值。离群值的存在会对数据分析造成极大影响,因此当遇到一组数据中有少量outliers时,一般需要将其准确筛选出来并删除掉,以避免对正确的结果造成干扰。

01

如何筛选离群值    

筛选离群值的方法有很多种,在代谢组学数据处理中箱形图和残差分析是较为常见的两种。

箱形图(Boxplot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据离散情况的统计图。因型状如箱子而得名,常见于快速识别离群值。

■ ■■■■

箱型图示例

箱形图中下四分位数为Q1,中位数为Q2,上四分位数为Q3,则四分位距IQR=Q3-Q1。上限是非异常范围内的最大值,上限=Q3+1.5IQR,下限是非异常范围内的最小值,下限=Q1-1.5IQR,突破上下限的数值被认为是离群值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。

离群值还有另一种筛选方法——残差分析(residualanalysis),所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。在回归分析中,测定值与按回归方程预测的值之差,以δ表示。残差δ遵从正态分布N(0,σ2)。(δ-残差的均值)/残差的标准差,称为标准化残差,以δ*表示。δ*遵从标准正态分布N(0,1)。实验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为离群实验点,应予以剔除。

■ ■■■■

残差图示例

离群值剔除后可将其当成缺失值,并选择合适的方法进行填充。

02

如何筛离群样本 

在代谢组学数据分析中我们会发现有一些样本中的离群值占比超过60%以上,这表明该样本自身质量可能存在问题,例如可能存在反复冻融、溶血等情况或者该个体与同组其他个体间存在较大差异,这些异常样本会严重影响差异代谢物的筛选结果,应予以剔除。因此在数据预处理过程中,对于离群样本的筛选也是十分必要的。筛选方法我们常用到的有PCA和Mahalanobis。

PCA(Principal Component Analysis),指主成分分析,是一种基于聚类的离群样本检测方法。在PCA得分图中,同组内的样本聚集成一簇,椭圆代表95%的置信区间,落在本组圆圈外的样本即为离群样本。

■ ■■■■

PCA得分图示例

Mahalanobisanalysis,指马氏距离法,是基于距离的判别多变量离群样本的一个常用方法。马氏距离是指多维空间的的一种距离测量,距离大小的评价由分布来确定,每个样本会对应得到一个马氏距离。首先需要基于卡方检验计算得出临界值,临界值的计算与检验水准和自由度相关,这里的检验水准一般为0.005或0.001。如果某个样本的马氏距离大于临界值,就可以认为在检验水准α下,该个体为离群值。

■ ■■■■

马氏距离概述图

下期预告

下周将为大家分享代谢组数据如何进行Normalization,敬请期待!

99%的代谢组学研究者都在阅读下文:

●超干软文 | 肿瘤空间代谢组学方案(上)

●项目文章 | 动物领域连续两篇!贝类代谢组、昆虫多组学研究成果

●项目文章 | IF=13!TM广靶助力强化结肠癌放疗仿生纳米载体研究

●大爆发!平均IF=15 | 项目文章(武汉地区)遍地开花

客服微信:metware888

咨询电话:027-62433042

邮箱:support@metware.cn

网址:www.metware.cn

我就知道你“在看”


  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2024 ANTPEDIA, All Rights Reserved