酒店 网站构建,遂宁网站建设公司哪家好,html首页设计模板,东莞招聘信息最新招聘官方网《ROC曲线下面积的计算方法》 1、ROC曲线的含义 2、ROC曲线下面积的估计#xff1a;双正态参数法 3、AUC的最大似然估计 4、面积的置信区间估计 5、delta方法 6、AUC非参数检验结合实例理解检验过程⭐SPSS得到的AUC结果展示的 检验 是怎样进行计算的#xff1f; ROC是受试者工… 《ROC曲线下面积的计算方法》 1、ROC曲线的含义 2、ROC曲线下面积的估计双正态参数法 3、AUC的最大似然估计 4、面积的置信区间估计 5、delta方法 6、AUC非参数检验结合实例理解检验过程⭐SPSS得到的AUC结果展示的 检验 是怎样进行计算的 ROC是受试者工作特征Receiver Ope rating Characteristic的缩写。ROC曲线及ROC曲线下面积可作为某一诊断方法准确性评价的指标通过对同一疾病的多种诊断试验分析比较这些指标可帮助临床医生筛选出最佳诊断方案。国内外许多学者通过对不同类型资料进行研究相继提出了ROC曲线面积估计、可信区间估计和面积比较假设检验的参数和非参数方法。本文系统介绍了ROC曲线下面积的参数与非参数估计方法。 1、ROC曲线的含义
ROC曲线即受试者工作特征曲线Receiver opr erating characteristic curveROC curve分析是一种统计方法。美国生物统计百科全书中关于ROC的定义是“对于可能或将会存在混淆的两种条件或自然状态需要试验者、专业诊断学工作者以及预测工作者作出精细判别或者准确决策的一种定量方法。经过大量学者的研究、实践目前ROC分析已经成为临床科研文献中应用最广泛的统计方法是国际公认的比较、评价两种或两种以上影像诊断方法效能差异性的客观标准。ROC曲线是以假阳性率即1-特异度为横坐标、以真阳性率即灵敏度为纵坐标绘制而成如图1为某诊断试验的ROC曲线。
ROC曲线下面积area under the ROC curveAUC记为A的大小可从量上具体表明诊断试验的准确度。ROC曲线作为诊断试验准确度的评价指标可理解为
所有可能特异度的平均灵敏度值所有可能灵敏度值的平均特异度值随机选择的病例试验结果比随机选择的对照试验结果更有可能怀疑“有病”的概率。
理论上当诊断试验完全无诊断价值即完全凭机会区分患者与非患者时ROC曲线是一条从原点到右上角的对角线即线段(00)→(11)这条线称为机会对角线chance diagonal如果获得的ROC曲线落在这条机会对角线上其曲线下面积为0.5
理想的诊断试验ROC曲线应是从原点垂直上升至左上角、然后水平到达右上角其曲线下面积为1该ROC曲线对应的诊断试验可完全把患者判为阳性、把非患者判为阴性但实际上这样的诊断试验极少或不存在。
诊断试验的ROC曲线一般位于机会对角线的上方离机会对角线越远说明诊断准确度越高ROC曲线下面积实际的取值范围为0.5~1而一般认为
对于一个诊断试验ROC曲线下面积在0.5~0.7之间时诊断价值较低在0.7~0.9之间时诊断价值中等在0.9以上时诊断价值较高。 2、ROC曲线下面积的估计双正态参数法
曲线下面积估计的参数法常常是通过拟合某种统计学模型来实现的双正态模型是目前ROC曲线分析中最常使用的方法。该法假设患者和非患者的实验结果均符合正态分布根据试验结果拟合双正态模型的ROC曲线该曲线可用两个参数表示一个参数用 a 表示是患者组与非患者组试验结果的标准化均数均值之差另一个参数可用 b 表示是非患者组与患者组试验结果的标准差之比。两个参数可由公式1估计得到 a x ˉ − y ˉ s x , b s y s x — — 1 ) a\frac{\bar{x}-\bar{y}}{s_{x}}, b\frac{s_{y}}{s_{x}} ——1) asxxˉ−yˉ,bsxsy——1)
其中 , x ˉ \bar{x} xˉ 、 y ˉ \bar{y} yˉ 分别为患者组和非患者组检测结果的均数(且患者组高于非患者组 , μ x μ y \mu_{x}\mu_{y} μxμy) s x s_x sx 和 s y s_y sy 分别为患者组和非患者组检测结果的标准差。由两个参数可得到绘制光滑 ROC 曲线下面积的估计值 。曲线下面积可由公式(2)估计得到 A Φ ( a 1 b 2 ) — — 2 ) A\Phi (\frac{a}{\sqrt{1b^{2}}}) ——2) AΦ(1b2 a)——2)
其中A为ROC曲线下的面积ab 分别为双正态模型的两个参数 Φ \Phi Φ表示标准正态分布函数。ROC曲线下面积的方差 Var ( A ) f 2 Var ( a ) g 2 Var ( b ) 2 f g Cov ( a , b ) — — 3 ) \operatorname{Var}(A)f^{2} \operatorname{Var}(a)g^{2} \operatorname{Var}(b)2 f g \operatorname{Cov}(a, b) ——3) Var(A)f2Var(a)g2Var(b)2fgCov(a,b)——3) f e − a 2 / 2 ( 1 b 2 ) 2 π ( 1 b 2 ) , g − a b c − a 2 / 2 ( 1 b 2 ) 2 π ( 1 b 2 ) 3 — — 4 ) f\frac{e^{-a^{2} / 2\left(1b^{2}\right)}}{\sqrt{2 \pi\left(1b^{2}\right)}}, g-\frac{a b c^{-a^{2} / 2\left(1b^{2}\right)}}{\sqrt{2 \pi\left(1b^{2}\right)^{3}}} ——4) f2π(1b2) e−a2/2(1b2),g−2π(1b2)3 abc−a2/2(1b2)——4) Var ( a ) n x ( a 2 2 ) 2 n y b 2 2 n x n y , Var ( b ) ( n x n y ) b 2 2 n x n y — — 5 \begin{array}{l} \operatorname{Var}(a)\frac{n_{x}\left(a^{2}2\right)2 n_{y} b^{2}}{2 n_{x} n_{y}}, \\\operatorname{Var}(b)\frac{\left(n_{x}n_{y}\right) b^{2}}{2 n_{x} n_y} ——5 \end{array} Var(a)2nxnynx(a22)2nyb2,Var(b)2nxny(nxny)b2——5 Cov ( a , b ) a b 2 n y — — 6 \operatorname{Cov}(a, b)\frac{a b}{2 n_{y}}——6 Cov(a,b)2nyab——6 因为患者组和非患者组的检测结果经常不符合双正态分布的条件一般需经过正态变换所以双正态模型的两个参数一般不宜直接计算得到可由最大似然估计法得到。 3、AUC的最大似然估计
将诊断试验结果看作是被I-1个合适的界值 t i t_i ti分割成的I个等级的有序分类资料,取 t 0 − ∞ , t I ∞ t_0-∞,t_I∞ t0−∞,tI∞则某诊断结果为第 i i i 类效应的概率为 真阴性个体 P i 1 n F x ∣ n ( t i ∣ n ) − F x ∣ n ( t I − 1 ∣ n ) 真阳性个体 P i 1 s F x ∣ s ( t i ∣ s ) − F x ∣ s ( t I − 1 ∣ s ) \begin{aligned} \text { 真阴性个体 } \quad P_{i 1 n}F_{x \mid n}\left(t_{i} \mid n\right)-F_{x \mid n}\left(t_{I-1} \mid n\right)\\ \text { 真阳性个体 } \quad P_{i 1}{ }_{s}F_{x \mid}{ }_{s}\left(t_{i} \mid \quad s\right)-F_{x \mid}{ }_{s}\left(t_{I-1} \mid s\right) \end{aligned} 真阴性个体 Pi1nFx∣n(ti∣n)−Fx∣n(tI−1∣n) 真阳性个体 Pi1sFx∣s(ti∣s)−Fx∣s(tI−1∣s)
所有观察对象都有明确诊断,假设真阴性总人数为 K K K真阳性总人数为 L L L效应间相互独立且分类界值固定后的真阴性簇和真阳性簇的观察个体数分别为 k 和 l k和l k和l k k 1 , k 2 , … … , k I ∣ ∑ i k i K l l 1 , l 2 , … … , l i ∣ ∑ i l i L k {k_1,k_2,……,k_I | ∑_ik_i K}l {l_1,l_2,……,l_i |∑_i l_i L} kk1,k2,……,kI∣∑ikiKll1,l2,……,li∣∑iliL。那么 k 和 l k和l k和l的似然值为 λ ( k , l ∣ a , b , t ) ( p 1 ∣ n ) k 1 ( p 2 ∣ n ) k 2 … ( p I ∣ n ) k I ( p 1 ∣ s ) l 1 ( p 2 ∣ s ) l 2 ⋯ ( p I ∣ s ) l I \lambda(k, l \mid a, b, t)\left(p_{1| n} \right)^{k_{1}}\left(p_{2|n}\right)^{k_{2}} \ldots\left(p_{I \mid n} \right)^{k_{I}}\left(p_{1 \mid s}\right)^{l_{1}}\left(p_{2 \mid s}\right)^{l_{2}} \cdots\left(p_{I \mid s}\right)^{l_{I}} λ(k,l∣a,b,t)(p1∣n)k1(p2∣n)k2…(pI∣n)kI(p1∣s)l1(p2∣s)l2⋯(pI∣s)lI
自然对数似然值为: ln λ ∑ i 1 I k i ln ( p i ∣ n ) ∑ i 1 I l i ln ( p i ∣ s ) \ln \lambda\sum_{i1}^{I} k_{i} \ln \left(p_{i \mid n} \right)\sum_{i1}^{I} l_{i} \ln \left(p_{i \mid s} \right) lnλi1∑Ikiln(pi∣n)i1∑Ililn(pi∣s)
利用迭代法可求得参数 ab 及其标准差的极大似然估计值进而由公式2求得 A的估计值再利用delta法算得 A 的标准差。 4、面积的置信区间估计
令 δ ( a / 1 b 2 ) , μ δ ( μ n 2 / K − 1 ) μ s 2 / L − 1 ) \delta\left(a / \sqrt{1b^{2}}\right), \mu_{\delta}\sqrt{\left.\left(\mu_{n}^{2} / K-1\right)\mu_{s}^{2} / L-1\right)} δ(a/1b2 ),μδ(μn2/K−1)μs2/L−1) 则 A 的 (1- α \alpha α)100%置信区间计算公式为 Φ ( δ ± u α / 2 ⋅ μ δ ) \Phi\left(\delta \pm u_{\alpha / 2} \cdot \mu_{\delta}\right) Φ(δ±uα/2⋅μδ) 5、delta方法
在统计学中独立和的中心极限定理或者Linderberg-Feller 中心极限定理都给出了随机变量服从极限正态分布的条件不过很多时候我们关注的不是随机变量本身的分布而是随机变量函数的分布而delta方法作用就是利用估计量的极限方差求得渐近正态估计量函数的极限分布。 6、AUC非参数检验
从定义上看AUC衡量的是ROC曲线下与横轴围成的面积值。但从统计角度来理解AUC的意义还需要结合Mann–Whitney U统计量。
首先AUC与Mann-Whitney U统计量基本上是等价的 A U C U n 1 n 0 A U C\frac{U}{n_{1} n_{0}} AUCn1n0U 其中 n 1 n_1 n1和 n 0 n_0 n0分表代表真实样本中样本 1 的总个数和样本 0 的总个数。则上例中 n 0 3 n_03 n03 n 1 2 n_12 n12。且由于 A U C 5 6 A U C \frac{5}{6} AUC65因此 U 5 U 5 U5。这是从二者的关系式得到的 U统计量 的值。 结合实例理解检验过程
回到最开始举的例子对于真实样本健康0、得病1、健康0、健康0、得病1模型判断每个样本的得病概率是0.300.600.550.400.50将两类样本分别按得病概率从小到大依次排序如下
健康样本(0) 预测概率0.300.400.55 组内秩123混合求秩组间秩124。得病样本(1) 预测病概率0.500.60 组内秩12混合求秩组间秩35。
至此结合上述例子可以用Mann-Whitney U统计量很好地解释AUC值的含义由于 A U C U 1 n 1 n 0 A U C\frac{U_1}{n_{1} n_{0}} AUCn1n0U1 或者更通俗一点地理解模型将1样本预测为1的概率为 P 1 P_1 P1将0样本预测为1的概率为 P 0 P_0 P0则 P 1 P 0 P_1P_0 P1P0的概率即为AUC它反应了分类器对样本的排序能力。
⭐SPSS得到的AUC结果展示的 检验 是怎样进行计算的
可得出ROC曲线下面积与50%面积比较的结果SPSS软件默认检验比较的面积为50%或0.5。关于两条AUC曲线的检验方法很多很容易可以找到资料。
例图1 例图2 正态性检验非参数检验分析法
1、正态性检验属于非参数检验原假设为“样本来自的总体与正态分布无显著性差异即符合正态分布”也就是说P0.05才能说明资料符合正态分布。
通常正态分布的检验方法有两种一种是Shapiro-Wilk检验适用于小样本资料SPSS规定样本量≤5000另一种是Kolmogorov–Smirnov检验适用于大样本资料SPSS规定样本量5000。
两条ROC曲线比较检验ROC曲线下面积的ML估计与假设检验
参考
https://blog.csdn.net/Joyliness/article/details/79156879Probabilistic interpretation of AUCThe Probabilistic Interpretation of AUC