2022-03-25 00:31:40, 小迈 武汉迈特维尔生物科技有限公司
代谢组原始数据包含质控样本(quality control, QC)和检测样本,为了更好地分析数据,需要对原始数据进行一系列的预处理,主要包括对原始数据缺失值的处理,离群值的处理,离群样本的处理以及数据规范化。经过数据的预处理,可以减小数据中与研究目的不相关的变异对数据分析的影响,有利于潜在目标差异代谢物的筛选和分析。
01
缺失值过滤
样本可能会由于某些原因(a. 信号很低检测不到;b. 检测错误,如离子抑制或者仪器性能不稳定;c. 提峰的算法限制,不能从背景中将低的信号提取出来;d. 解卷积时不能将重叠的峰全部解析出来),造成一个或多个值的缺失。在表格中缺失值通常是以空值的形式或者是NA(Not A Number)存在的。
根据样本或分组内缺失值的比例,进行数据过滤是代谢组学分析中常用的方法。例如:将QC样本中缺失超过50%的峰去除;或将样本中缺失值超过80%的峰去除。
02
缺失值如何填充
对于未被过滤的缺失值,如果直接忽视,这样的数据矩阵可能会影响后续算法的计算,将会触发异常,因此需要进行模拟填充。比较简单的方法是用固定值值、平均值、中位数、最小值或1/2最小值进行填充;复杂一点的则是使用机器学习的算法如临近算法(KNN)、随机森林(RF)、奇异值分解(SVD)等方法。在代谢组学数据处理中较为常用的有以下几种:
固定值填充
对于特征值缺失的一种常见的方法就是可以用固定值来填充,例如0,9999, -9999等。
均值、众数、中位数填充
根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们,通常使用能代表变量中心趋势的值进行填补,代表变量中心趋势的指标包括平均值、中位数、众数等,那么我们采用哪些指标来填补缺失值呢?
Mix填充
使用最小值进行填充,适用于由于代谢物信号响应低于仪器检测限而造成的缺失值;
插值法填充
插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。与拟合不同的是,要求曲线通过所有的已知数据。
回归法填充
任何回归都是从特征矩阵中学习,然后求解连续型标签y的过程,之所以能够实现这个过程,是因为回归算法认为,特征矩阵和标签之前存在着某种联系。对于一个有n个特征的数据来说,其中特征T有缺失值,就把特征T当作标签,其他的n-1个特征组成新的特征矩阵。用T标签没有缺失值的部分和新特征矩阵相对应部分来预测T标签中缺失的部分。常见的回归模型-线性回归,基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。
随机森林法填充
随机森林也可以应用到回归问题上面,取决于随机森林的每颗cart树是分类树还是回归树。它对原始数据集做很多次放回抽样,会得到很多不同的数据集,然后对于每个数据集建立一个决策树。随机森林的最终结果是所有树的结果的平均,一个新的观测值,通过许多棵树(比如n 棵)得到n 个预测值,最终用这n 个预测值的平均作为最终结果进行填充。当然还是跟上面的回归数据预处理一样,先构建训练集和预测集再进行模型预测。
KNN填充
属于算法填充,KNN方法的原理是在数据集中识别空间相似或相近的k个样本。然后我们使用这些“k”样本来估计缺失数据点的值。每个样本的缺失值使用数据集中找到的“k”邻域的平均值进行插补。
■ ■■■■
KNN原理图
据调研,KNN算法是目前缺失值填充方法中处理效果最稳健的算法,近年来使用较为普遍。但也有研究者认为需要根据缺失类型来进行选择,对于完全非随机缺失的可使用最小值的一半进行填补,完全随机缺失或随机缺失的使用随机森林方法(Wei et al.,2018),所以目前并没有完全统一的标准,具体填充方法还要根据本身数据类型和生物学意义进行选择。
下周将为大家介绍离群值及离群样本如何筛选,敬请期待!
我就知道你“在看”
04-30
致敬每一位辛勤的劳动者04-30
实践校企联合 | 院士团队师生到访兰友科技04-30
职业健康,与您同行 | 英盛生物助力《职业病防治法》宣传周04-29
欢迎来到聚合物的神奇世界04-29 Nouryon诺力昂
五一劳动节 | 致敬每一位追光人(内含互动游戏,点击参与)04-29 光电行业都会关注
“劳”有所获 “动”有所乐 | 卓立汉光五一放假通知请查收04-29
如何站在“小巨人”的肩膀上做好质谱产品?——ACCSI2024访衡昇质谱(北京)仪器有限公司总经理祝敏捷04-29
探索国产自主创新 | 国科大杭州高等研究院师生一行到访谱育科技参观学习04-29 点击关注→
热点应用丨“小”花粉“大”奥秘—RMS1000带你解密花粉热(下)04-28 天美
仪器推荐丨一体化全自动显微共聚焦拉曼光谱仪 RM504-28
仪器推荐丨科研级模块化显微共聚焦拉曼光谱仪RMS100004-28
HyperQuant与您一起破解呕吐毒素之谜04-28
用户速递 | 酸碱度对混合SOA 代理物-无机气溶胶液滴液-液相分离的影响04-28 光电行业都会关注
“元素分析自动化创新的一大步”---ACCSI 2024衡昇质谱展示革命性创新产品04-28 衡昇质谱
In China, For Global|微纯生物科技参加LAB-Indonesia 202404-28
中关村论坛之高端仪器创新,天隆智造再获殊荣04-28
天隆产品说丨天隆方案为动物健康保驾护航04-27
世界兽医日 | 与他们共同守护动物健康04-27
政策响应丨奥谱天成显微拉曼光谱仪重磅来袭!所有ATR8300用户免费升级04-26