2022-03-25 00:31:40, 小迈 武汉迈特维尔生物科技有限公司
导 读
代谢组原始数据包含质控样本(quality control, QC)和检测样本,为了更好地分析数据,需要对原始数据进行一系列的预处理,主要包括对原始数据缺失值的处理,离群值的处理,离群样本的处理以及数据规范化。经过数据的预处理,可以减小数据中与研究目的不相关的变异对数据分析的影响,有利于潜在目标差异代谢物的筛选和分析。
01
缺失值过滤
样本可能会由于某些原因(a. 信号很低检测不到;b. 检测错误,如离子抑制或者仪器性能不稳定;c. 提峰的算法限制,不能从背景中将低的信号提取出来;d. 解卷积时不能将重叠的峰全部解析出来),造成一个或多个值的缺失。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。
根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。例如:将QC样本中缺失超过50%的峰去除;或将样本中缺失值超过80%的峰去除。
02
缺失值如何填充
对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常,因此需要进行模拟填充。比较简单的方法是用固定值值、平均值、中位数、最小值或1/2最小值进行填充;复杂一点的则是使用机器学习的算法如临近算法(KNN)、随机森林(RF)、奇异值分解(SVD)等方法。在代谢组学数据处理中较为常用的有以下几种:
1
固定值填充
对于特征值缺失的一种常见的方法就是可以用固定值来填充,例如0,9999, -9999等。
2
均值、众数、中位数填充
根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们,通常使用能代表变量中心趋势的值进行填补,代表变量中心趋势的指标包括平均值、中位数、众数等,那么我们采用哪些指标来填补缺失值呢?
3
Mix填充
使用最小值进行填充,适用于由于代谢物信号响应低于仪器检测限而造成的缺失值;
4
插值法填充
插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。与拟合不同的是,要求曲线通过所有的已知数据。
5
回归法填充
任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程,之所以能够实现这个过程,是因为回归算法认为,特征矩阵和标签之前存在着某种联系。对于一个有n个特征的数据来说,其中特征T有缺失值,就把特征T当作标签,其他的n-1个特征组成新的特征矩阵。用T标签没有缺失值的部分和新特征矩阵相对应部分来预测T标签中缺失的部分。常见的回归模型-线性回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。
6
随机森林法填充
随机森林也可以应用到回归问题上面,取决于随机森林的每颗cart树是分类树还是回归树。它对原始数据集做很多次放回抽样,会得到很多不同的数据集,然后对于每个数据集建立一个决策树。随机森林的最终结果是所有树的结果的平均,一个新的观测值,通过许多棵树(比如n 棵)得到n 个预测值,最终用这n 个预测值的平均作为最终结果进行填充。当然还是跟上面的回归数据预处理一样,先构建训练集和预测集再进行模型预测。
7
KNN填充
属于算法填充,KNN方法的原理是在数据集中识别空间相似或相近的k个样本。然后我们使用这些“k”样本来估计缺失数据点的值。每个样本的缺失值使用数据集中找到的“k”邻域的平均值进行插补。
■ ■■■■
KNN原理图
据调研,KNN算法是目前缺失值填充方法中处理效果最稳健的算法,近年来使用较为普遍。但也有研究者认为需要根据缺失类型来进行选择,对于完全非随机缺失的可使用最小值的一半进行填补,完全随机缺失或随机缺失的使用随机森林方法(Wei et al.,2018),所以目前并没有完全统一的标准,具体填充方法还要根据本身数据类型和生物学意义进行选择。
下期预告
下周将为大家介绍离群值及离群样本如何筛选,敬请期待!
99%的代谢组学研究者都在阅读下文:
●超干软文 | 肿瘤空间代谢组学方案(上)
●项目文章 | 动物领域连续两篇!贝类代谢组、昆虫多组学研究成果
●项目文章 | IF=13!TM广靶助力强化结肠癌放疗仿生纳米载体研究
●大爆发!平均IF=15 | 项目文章(武汉地区)遍地开花
客服微信:18062045271
咨询电话:027-62433042
邮箱:support@metware.cn
网址:www.metware.cn
我就知道你“在看”
07-01 英斯特朗
连载 | 药物一致性评价与粒度分析(三)07-01 欧美克仪器
【仪器百科】LS-909丨干湿二合一激光粒度分析仪07-01 欧美克仪器
标准物质解决方案 | PFASs(全氟及多氟化合物)06-29
第九期阿尔塔有约 | 环境专题【新污染物:PFAS】技术研讨会精彩回顾及提问解答06-29
“绿色技术范式”,分析化学未来发展方向——访中国分析测试协会副理事长、辽宁省分析科学研究院原院长刘成雁教授06-29 转载仪器信息网
华西医院-标准型数显脑立体定位仪、双通道体温维持仪、体式显微镜安装完成06-29 迈越生物
科鉴检测助力2家仪器企业获得首批产品可靠性认证证书06-28 科鉴检测
德国耶拿:锂电池生命周期分析解决方案06-28 德国耶拿
AI已来!生命科学本科教学如何紧跟技术浪潮06-28 Opentrons
盛瀚售后,五星级服务的秘诀是什么?06-28 SHINE
专为汽车制造商打造的柔性解决方案——实现制程控制06-28
西北工业大学-脑立体定位仪安装完成06-28 迈越生物
会议邀请 | 第九届海上检验医师论坛06-28
卓立要闻 | 创新发展ing…6月卓立“大事小情”速览06-28 光电行业都会关注
打造信任合作伙伴!2024年度卓立汉光客户满意度调查开启06-28 光电行业都会关注
如何挑选适用于三阶光学非线性的测量系统?Z扫描测量系统来助力!06-28 光电行业都会关注
招聘启事—中国科学院沈阳自动化研究所微纳光学测量表征技术课题组06-28 光电行业都会关注
谱育科技作为主要完成方 荣获2023年度国家科学技术进步一等奖和二等奖06-28 点击关注→
仪器原理丨顶空仪与吹扫捕集仪科普小知识06-28 天美色谱