SoftMax Pro 7——曲线拟合方式新标准

2020-12-06 04:06:50, 美谷分子仪器 美谷分子仪器(上海)有限公司


当需要定义一个数据的特征时,如变化的比例、曲线上下边的渐近线或者 EC50/IC50 值时,选择正确的曲线拟合方式是十分关键的。选择的曲线拟合方式应该是能够更准确的反映两个已知变量(x,y)的关系。因此,曲线拟合的目的就是为了寻找更合适的公式和参数来匹配数据。


SoftMax Pro7 软件能够提供 21 种曲线拟合方式,包括四参数(4P)和五参数(5P)非线性回归分析。多种的拟合方式选择,是为了确保能够找到适合数据的更好的拟合方式,并且能够通过调整所选拟合方式的参数来得到更能反映浓度响应变化关系的曲线图。


本文将介绍在 SoftMax Pro7 软件中能够运用的线性和非线性回归分析方法。另外,本文还给出了如何利用标准方差和阿凯克信息论准则来评估选择的拟合方式是否更合适。


线性

    回归

线性回归拟合是最常见的数据拟合方式。它可以用下面的公式表示出来:

y = A + Bx

其中 x 代表自变量(一般是浓度等变量) ,y 代表因变量;B 值代表的是该公式对应直线的斜率,而 A 值则为 x = 0 时的 y 轴截距。


SoftMax Pro 提供三种线性拟合方式:

y = A + Bx

semi -log y = A + B* log10 (x)

log-log log10 (y) = A + B* log10 (x)

软件可以通过数据分析中找到更合适的直线公式(图表 1)。

图 1:线性拟合示意图

在计算线性范围时,最小的标准品数据取点为 3 个,但是更多标准品数据能够提高拟合的准确性。这种拟合方式突出的优点就是计算简单。但是,大多数情况下,数据间的关系都是非线性的。


非线性

    回归

在测量值和变量为非线性关系时,通常使用 logistic 回归分析。这种拟合方式的目的是为了找到更合适的公式参数来使公式计算的理论值和测量值之间的背离更小。为了能够正确地选择更合适的拟合方式,需要理解标准的曲线形状,并将他们与实际数据点的形状进行比较。


SoftMax Pro 软件提供了 17 种非线性曲线拟合方式。它包括:二次方拟合,三次方拟合,四次方拟合,log-logit,cubic spline,指数函数,直角双曲线,两参数指数函数,双指数函数,双直角双曲线,两点竞争,高斯拟合,Brain-Cousens,四参数拟合,五参数拟合和五参数交替拟合。SoftMax Pro 软件使用广泛使用的迭代过程,Levenberg Marquardt 算法,来获得更合适的非线性拟合方式。四参数和五参数拟合是最常见的两种非线性曲线拟合方式,均适用于 S 形曲线的回归分析(图 2)。

图 2:浓度效应学曲线之四参数和五参数曲线拟合模型比较,虽然四参数曲线具有更加平滑对称的曲线,但数据明显不对称,因此五参数拟合模型更适合

这类曲线拟合方式需求至少 4 个或 5 个数据点,使用 6 个以上的数据点能够获得更加准确的拟合公式。


四参拟合表示为下列公式:

y = ((A-D) / (1 + ((x/C)^B))) + D

其中 y 是相应值,D 值是无限分析物浓度下的响应值,A 是零分析物浓度下的响应值, x 是分析物浓度,C 是拐点值(EC50/IC50),B 是斜率参数。而响应的变化规律是:

● 当 A < D 时,y 值是正比于 x 值变化的;


 当 A > D 时,y 值是反比于 x 值变化的。

四参数曲线是一个对称的曲线,曲线的一侧和另一侧以 EC50/IC50 中心点完全点对称。


而对于一些免疫实验或生物测试的数据, 其数据图形并不对称,因此需要而外的变量来衡量该数据的复杂性。在这种情况下,五参数拟合方式能够通过引入一个新的参数 G(表二)很好的反映出这类数据的特征。五参数拟合的通用公式为:

y = ((A-D) / (1 + ((x/C)^B)) ^G) + D

不对称参数 G 可以使曲线的两部分不一致。但是需要说明的是,当 G 值很小或者需要平行线(PLA)分析时,建议使用四参数拟合方式来获得更好的拟合效果。


选择更好的

    曲线拟合方式

曲线拟合后的好坏,尤其是标准曲线的建立,需要使用精准的数据来对其进行评估。重复实验设置对于获取好的曲线拟合是十分重要的,而单次实验随机性会使曲线拟合的效果很差。R2 值是用来评估曲 线拟合好坏的一个很好的指标。通常来说,当 R2 值大于 0.99 时,曲线拟合效果被认为是很好的。但是当标准偏差随着样品的浓度变化而变化时,R2 值出现偏差而不准确。理想的情况是标准偏差在所有浓度样品下都应该一致,适用于方差一致性的数据;但是不是所有的情况都是标准偏差随着样品的浓度增加而增加,这时 R2 的就不适用了,需要新的方法衡量。


使用赤池信息量准则(AIC)和 F 分布下的统计量方法进行的误差平方和(SSE)被用来标准化这些异方差数据。这两种方法在衡量测定值和选择的拟合曲线的理论值之间的误差时是十分相似的方法。由于 SSE 方法需要使用残差和残差图,因此该方法又称为残差平方和法。


残差的定义是指在每个选定浓度下,实际的响应值 y 和所选拟合曲线所得的理论响应值 y′ 的差异性, 即残差 = 测定数据-拟合数据 = y - y′。残差代表的是随机偏差。因此,当曲线拟合方式符合数据时,残差图中点的分布应该是围绕 y = 0 轴的随机点(图表 3A)。如果残差图中点的分布情况是有规律的(图表 3B),那么很明显该数据的曲线拟合方式是很差的。

图 3:残差数据适合线性和四参数曲线拟合模型。(A) 图中的残差随机分布在零附近表示四参数能够很好对该数据进行拟合,(B) 残差显示出该数据进行线性拟合更加合适

SSE 方法使用下面的公式进行分析:

SSE = Σ wi (yi - ŷi)2

假设数据误差是不相关的且符合正态分布,使 SSE 尽可能地更小能够更大近似的估算数据模型的曲线公式参数。换句话说,其参数能够得到越小的 SSE的曲线拟合方式越好。如果两种拟合方式都能符合数据,那么哪个残差图给出了更小的 SSE,就使用那个拟合。


当两种拟合方式是嵌套关系及一种是另一种的特殊情况时,例如四参数拟合就是五参数拟合当 G = 1 时的特殊情况,具有更多参数的拟合方式要比另一个更能得到更小的 SSE。这是因为更多的参数能够使曲线拥有更多的拐点来匹配数据。因此,需要引入一些额外的统计计算来决定哪种拟合方式是更匹配数据的,这个统计计算有 F-test 和 F-probability。F probability 是使用 F-test 和拟合曲线模型的自由度来评估 SSE 的减小是否是偶然发生的。一般的,当 probability 值小于 0.05 时,说明该拟合曲线的公式很匹配数据。


AIC 方法是用类似的统计计算来比较两个具有嵌套关系的曲线拟合方式那个更匹配所给的数据。AIC 值能够通过下面的公式来计算,适用具有正态分布误差的数据:

AIC = n* log (SSE/n) + 2K

这里 n 代表样本量,K 是描述曲线的参数数量。


当样本量小时 (n /K < ~40),则使用二阶的 AIC 值 (AICc),公式为:

AICc = AIC + 2K* (K + 1) / (n - K - 1)

这里 n 代表样本量,K是描述曲线的参数数量。


当样本量增加时,

AICc = AIC + 2K* (K + 1) / (n - K - 1)

公式末项值趋近于零,这时 AICc = AIC。AICc 和 AIC 都用来评估更佳的拟合方式和公式拟合公式具有多少参数能够达到特定的匹配程度。


AIC 方法限制了公式参数的数量,因此得到更佳的拟合方式却使参数变得更小了。较低 AIC 值的曲线拟合通常是首选的拟合方式,即一个很少参数的曲线拟合公式依然能够是更合适的拟合方式。


上述两种方法都可以用来决定哪种曲线拟合方式更匹配数据,但是这两种方法均不能作为零假设检测的测试模型。如果很难找到更好匹配的拟合方式,逻辑上选择更接近的拟合拟合。例如一个无限宇宙的模型,曲线拟合仅能够找到更好参数的已知模型或者比较两个拟合方式哪个更好,但是适合无限宇宙模型的候选公式需要基于调查和科学的验证。在指定了一组合理的模型来解释数据之后,在分析之前需要评估全局模型的拟合应为更复杂的模型设置。假设全局模型匹配的话,那么认为简单模型也同样是匹配的,因为简单模型包含在全局模型中。


更佳

    拟合程度的衡量

SoftMax Pro 7 能够使用一个新的独立的参数来衡量给的曲线是否匹配数据。参数依赖性是测量当一个参数到达足够好时另一个参数的合适的限度和范围。一个具有 2 个或更多参数的拟合方式,描述曲线的参数即可能是关联性很强的,又可能是赘余的。


如果在曲线拟合完成后改变曲线的一个参数,那么新的曲线应该是远离数据点的。在此时,如果改变另一个参数的值能够补偿固定参数并使曲线向数据点靠近,但是和原始曲线设置不同,那么这些参数是关联性。相反地,如果曲线回到了原始的位置,那么这些参数是赘余的。


参数的独立性用 0~1 的数值进行衡量,当数值为 1 时参数完全独立。要在图形中显示该独立性质时,请点击如图 4 的曲线拟合设置图标图 4。将会弹出曲线拟合设置窗口,只要选择Statistics栏并勾选“Calculate parameter dependencies”即可。

图 4:SoftMax Pro 7 软件进行曲线拟合。(A) Menu,(B) Curve fit settings

在图形表格中将会显示出每一个参数的独立性质(图 5)。在图 5 中 ,参数的独立程度使用对数标度的 bar 显示出来。十格 bar 表明参数的独立程度很高。由于只有很小的值才会影响拟合结果,因此这种标度采用非线性的标度方式。

图 5:图例显示参数独立性。参数的独立程度使用对数标度的 bar 显示出来,十格 bar 表明参数的独立程度很高

如果多个参数 bar 很小或没有的话,表明该拟合方式对数据是不匹配的。例如,如果数据是具有很明显上限和下限渐近线的 S 型曲线,那么一个四参数拟合将适用于该数据,所有参数应该都具有很高的 bar 值。但是如果一条或两条渐近线都没有的话,则参数 A 和 D 的 bar 值将会很小,表明不能从数据中推导出可靠的参数值。


新的标准

    曲线拟合方式

在 Softmax Pro 软件中设置了标准模板,曲线拟合评估,用来在分析数据时自动的计算SSE,F probability 和 AIC 值。在结果显示窗口中展示出使用 SSE 和 AIC 方法 进行的曲线拟合分析相关的所有计算(图 7)。标准模板均可以在 www.softmaxpro.com 网站中下载。在下面这个例子中, 所要分析的数据使用四参数(图 6A)和五参数(图 6B)分别进行拟合,两种拟合方式均得到 R2 = 1。

图 6:数据进行曲线拟合模型。(A)四参数拟合,(B) 五参数拟合


图 7:SSE 和 AIC 检测方法。数据结果显示其符合四参数和五参数曲线拟合模型

所有的计算结果均在图 7 中罗列出来。SSE 方法显示五参数拟合比四参数拟合方式更匹配这些数据,因为五参数的 SSE = 0.027 而四参数的 SSE = 0.058。问题是四参数拟合是五参数拟合的当 G = 1 时的特殊情况,四参数应该和五参数一样的适合于这类数据。因此需要使用额外的数据来进一步分析。


F test (61.538) 和 F probability (0.000) 进一步确认了五参数拟合方式更匹配所分析的数据。AIC 方法也表明五参数拟合更适合所分析的数据,其中四参数 AIC = -405.365 而五参数 AIC = -447.945。最终残差图显示两种拟合方式都是数据点随机分布在 X 轴附近,说明两种拟合方式均适合于该数据(图 8)。

图 8:残差图显示数据符合四参数和五参数曲线拟合模型

综合评估,所分析的数据更好的拟合方式应选择五参数拟合。

总结

在 SoftMax Pro7 中含有多种数学模型可供使用,包括常用的四参数和五参数拟合方式。R2 值可以粗略的衡量曲线拟合是否匹配所要分析的数据,特别是异方差类的数据。


SSE 和 AIC 方法被用来评估曲线拟合的匹配程度已选择可能更好的曲线拟合方式。然而在此之前,首先要明确的是两种拟合数据的方式都必须是合理的和符合科学理性的。SoftMax Pro7 还包含一种方法,用来计算参数的独立性,以此评估曲线拟合方式对数据的匹配程度。参数独立性的结果能够直观的展示到图标中帮助你解读您的数据。



每周五下午 5 点与您相见

好玩的、划算的、有用的、前沿的

帮助您获取生命科学研究及药物研发全方位的解决方案

产品覆盖微孔板检测分析、高通量筛选、

高内涵成像、高效克隆筛选等。

我知道你在看



  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018
  • 客服电话: 400-6699-117 转 1000
  • 京ICP备07018254号
  • 电信与信息服务业务经营许可证:京ICP证110310号
  • 京公网安备1101085018

Copyright ©2007-2026 ANTPEDIA, All Rights Reserved