检察院加强网站建设,新闻门户网站免费建设,机关网站模板,国外大气网站参考
核密度估计#xff08;KDE#xff09;原理及实现-CSDN博客
机器学习算法#xff08;二十一#xff09;#xff1a;核密度估计 Kernel Density Estimation(KDE)_算法_意念回复-GitCode 开源社区 引言 在统计学中#xff0c;概率密度估计是一种重要的方法#xff0…参考
核密度估计KDE原理及实现-CSDN博客
机器学习算法二十一核密度估计 Kernel Density Estimation(KDE)_算法_意念回复-GitCode 开源社区 引言 在统计学中概率密度估计是一种重要的方法用于估计连续型随机变量的概率密度函数。与基于假设的参数方法不同概率密度估计是一种非参数方法能够对数据进行平滑估计。其核心目的是通过对观察数据的平滑处理来揭示其潜在的分布特性尤其在数据分布未知或没有假设具体分布模型时概率密度估计成为理解数据基本特征的重要手段。 概率密度估计方法可以分为直方图密度估计和核密度估计两种。其中直方图密度估计将数据划分为若干区间通过计算每个区间内的频数来近似表示概率密度是一种简单而直观的方法。而核密度估计则通过将每个观测值与一个核函数进行加权叠加得到一个连续平滑的概率密度函数用于更精细地描述数据的分布特性。 一元密度估计在描述数据集中趋势、分布状况及多峰情况方面非常有效。这种方法在探索数据特征时提供了一种可靠且灵活的工具能够帮助研究者理解数据的内在结构尤其是在数据包含多样性和异常值时密度估计的方法更显优势。因此密度估计在统计分析、数据挖掘和机器学习等领域得到了广泛的应用。
一直方图密度估计 在直方图密度估计中如何选择合适的区间数量也称为组数是一个关键问题。 Sturges准则是一种常用的方法用于确定直方图的最佳区间数量。Sturges准则的核心思想是当数据样本量较小时通过对数缩放的方法使得区间数量适中以避免过度平滑或过度分割数据。这种方法适用于数据呈近似正态分布的情况能够有效地平衡直方图的平滑性和分辨能力。然而当样本量较大或者数据分布偏离正态分布时Sturges准则可能会显得不足产生较少的区间从而导致直方图无法很好地捕捉数据的细节特征。 为了解决这一问题研究者们还提出了其他区间选择准则例如Freedman-Diaconis准则和Scott准则这些方法在处理具有不同分布特征的数据时能够提供更为灵活和精确的区间划分。 1.1 Sturges准则 Sturges准则的核心思想是当数据样本量较小时通过对数缩放的方法使得区间数量适中以避免过度平滑或过度分割数据。这种方法适用于数据呈近似正态分布的情况能够有效地平衡直方图的平滑性和分辨能力。Sturges准则的思想是通过样本总数的对数来限制分组数以保持合理的分布假设。在一些特殊情况下如样本来自二项分布Binomial或其他复杂分布时可以使用这个准则进行分组。Sturges准则的分组区间的最佳宽度可以通过如下公式计算 其中 R 表示样本的极差n 表示样本大小。通过这个公式区间的宽度主要依赖于样本的大小而非数据的实际分布。这种选择方式适用于从对称或单峰的总体中抽取的数据但在某些情况下如偏态分布或多峰分布该准则可能并不适用。 13为默认分组的直方图24是用Sturges准则 如何通过直方图来估计数据的密度 当样本量为 n1000并基于对样本的直方图分组来估计相应的密度值。首先为了从直方图中重新得到密度估计需找到包含所关心点的区间并计算相应的组频率。 在默认的直方图中x00.1 位于第 7 组其中密度 f1(0.1)0.38。而在 Sturges 分组的直方图中x0 在第 6 组f2(0.1)0.3889306。换句话说密度估计是通过分组加权得到的相对频率。结果显示用默认直方图密度估计0.1的概率密度为f1(0.1)0.38如果用Sturges 分组的直方图估计0.1的概率密度f2(0.1)0.3889306。这两个估计值与理论标准正态密度的值 ϕ(0.1)0.3969525 非常接近但是用Sturges 分组的直方图估计的结果更接近理论值说明密度估计的效果相对较好。 使用默认分组和Sturges准则进行直方图密度估计部分代码与结果图 1.2 Scott 正态参考准则 Scott 正态参考准则用于选择最优或较好的光滑参数以使得估计的均方误差最小。均方误差MSE用于度量估计函数 f(x)与真实密度函数 f^(x)之间的偏差。MSE 的定义如下 为了选择最佳带宽 h需要使得 MISE 最小化。根据 Fubini 定理可以得到 为了使得 MISE 最小选择最优带宽 这一带宽的选择使得 Asymptotic MISE渐近 MISE达到最小值 由于密度估计中的 f′′(x) 是未知的因此无法直接通过上述公式计算最优带宽。Scott 提供了一个被称为“正态参考准则”的估计方法用于在正态分布假设下获得合理的带宽。根据正态参考准则 其中是数据标准差的估计。 当假设数据来自正态分布时也可以理解为如果当样本量呈现比较明显的对称单峰也可以考虑使用这个准则可以通过经验公式来选择合适的带宽。 使用Scott 正态参考准则分组和R中默认的‘Sturges’准则进行直方图密度估计 不难发现直接使用breaks ‘scott’呈现的分组如蓝色的直方图显示与我们根据经验准则选择的带宽不同使用此准则时注意不要直接用R包里面的就行。根据经验公式选择的带宽使得分组更细使得数据的密度估计更平滑、准确。
1.3 Freedman-Diaconis 准则 如上面的数据集我们可以很明显的看到数据集存在异常值如果我们想尽量减小异常值的影响就可以考虑Freedman-Diaconis 准则。 Freedman-Diaconis 准则它是一种用于选择直方图的最佳组距带宽的标准特别是在数据包含异常值或偏态时Freedman-Diaconis准则通常被认为更为稳健。Freedman-Diaconis准则旨在根据数据的四分位距IQRInterquartile Range来选择最佳的组距带宽。具体公式如下 h 表示组距带宽是确定每个直方柱的宽度的关键参数。IQR 为样本四分位数间距即数据在第 75 个百分位数与第 25 个百分位数之间的范围。IQR 对异常值极端值更加稳健因此在数据包含离群值时Freedman-Diaconis准则是更合理的选择。n表示样本量。Freedman-Diaconis准则中组距与样本量的三次根成反比即随着样本量增加组距变窄使直方图的分辨率更高。 可以看到使用F-D准则可以让异常值更远离我们的主要数据与Scott 正态参考准则进行比较Scott 正态参考准则将数据分为9组F-D准则将数据分为10组其中有一组频数为0在数据包含较多离群值或数据分布不服从正态假设时F-D准则异常值更加鲁棒。 1.4 频率多边形密度估计 频率多边形是对直方图的扩展和进一步的平滑处理方法。每个直方图的顶点被连接起来形成一条连续的折线这样能够更直观地展现数据的密度变化趋势。在频率多边形的基础上可以进一步引入核密度估计来得到更加精细的分析结果。这种方法对数据分布的理解提供了一种简化和连续的表示形式特别适用于需要对数据分布进行更平滑的分析场景。 给出了频率多边形密度估计的最佳组宽的计算方法 其中σ 表示数据的标准差n 表示样本量。这个公式用于估计频率多边形的最佳组宽以确保密度估计更加准确和平滑。如果是一个明显的偏态分布可以使用 Scott 的方法对组宽进行修正。给出了一个计算组宽的公式 该公式通过乘以一个因子来得到适当且更小的组宽从而更好地应对偏态分布。类似地如果样本的尾部比正态分布更陡峭那么可以推导出一个“峰态调整”的方法以减少组宽从而更精确地反映样本的密度特征。 直方图尽管可以有效地描述数据的频率分布但由于每个组之间是离散的所以它在描述数据分布的连续性方面存在一定的局限性。而频率多边形通过将各个组的顶点相连使得最终得到的密度估计曲线看起来更加连续和平滑从而更好地反映了数据的整体分布趋势。 我们需要了解密度函数PDF的一个重要性质在整个定义域上的积分必须等于1。 通过积分来验证密度估计的方法。 我们可以使用插值函数approxfun来对频率多边形的估计进行插值然后使用integrate函数对其进行积分计算其在整个定义域内的总和是否等于1。 上方的代码展示了这一过程首先通过approxfun函数创建了插值函数fpoly然后使用integrate函数对其进行积分。在输出中我们可以看到积分的结果非常接近1并且误差极小这就验证了这个频率多边形密度估计符合概率密度的基本性质。如果积分的结果与1相差较大那么就说明我们的密度估计存在一些问题可能是由于数据分布的异常或者在估计过程中的计算误差。这样一来验证积分结果是否等于1就成为了检查密度估计准确性和可靠性的重要步骤。最后在频率多边形密度估计的应用中我们不仅要关注曲线形态是否合理还必须通过数学手段验证它的正确性确保它符合概率分布的要求。这对于我们在实际数据分析中保证模型的可靠性至关重要。 题外话
你肯定能感受到带宽选择 h 的重要性
后面到核密度估计
ta会更重要 1.5 平均移动直方图Average Shifted Histogram, ASH ASH 方法 是一种通过对直方图进行平移并取平均值来计算概率密度估计的非参数方法。相比于简单的直方图ASH 能有效减少在组距选择上的误差并得到一个更为平滑的密度估计。ASH 密度估计涉及将数据划分为多个区间然后通过计算每个区间的频数并对这些区间进行平移得到的平均值。具体地
a将原始样本分组并计算每个组的频数。
(b) 通过设定多个平移区间 m对原始分组位置进行移动形成多组重叠直方图。
(c) 最后对每个移动后的直方图求均值形成最终的 ASH 密度估计。
例子
对样本大小 n100进行估计用四个不同的直方图宽度分别为 0、0.25、0.5 和 0.75计算每个直方图中的区间计数breaks和 counts。找到包含 x0.2x 0.2x0.2 的区间进行求平均值计算计算公式为
或者通过构造一个网格宽度为 δh/m0.25 的子区间构成的网来计算。点 x0.2在区间 (−0.75,0.25),(−0.5,0.5),(−0.25,0.75),(0,1] 中对应着第 14 个到第 20 个子区间分组计数为 [1:12] [13:24] [25:35]。给出一般情况下 tj之间估计密度的加权平均公式 example 可以看到通过加权函数可以简化计算要求左右两边各有 m−1 个空的分组。 二. 核密度估计
2.1理论推导 通过上面内容可以理解如下
累积分布函数CDF F(x)P(X≤x)用于描述随机变量小于或等于某个值 x 的概率。对于任意给定的数据集我们可以通过样本来估计其分布函数定义为 其中n 表示样本总数。
为了得到概率密度函数可以通过定义差商的极限 这相当于取样本数据在点 xxx 附近的变化率以此估计其密度。我们可以通过将区间分割来估计概率密度 其中h 为带宽参数表示区间的宽度。可以使用卷积核函数对密度进行平滑 这里用到的核函数为单位矩形函数取值为 1 当 ∣x−xi∣1时否则为 0。如果我们定义一个均匀分布的核函数 k(x)如下所示 那么均匀核密度估计公式可以表示为 这是利用核函数进行加权平均以平滑估计数据的分布特性。
带宽参数 h 控制核函数的宽度决定了平滑程度。(非常重要)
核函数 K(t) 的五个性质 2.2核密度估计 K(.)为核函数非负、积分为1符合概率密度性质并且均值为0h0为一个平滑参数称作带宽(bandwidth)也看到有人叫窗口。有很多种核函数uniform,triangular, biweight, triweight, Epanechnikov,normal,等。 各种核函数的图像如图2.1 2.1 图 2.2 中展示了对标准正态分布的 100 个样本点使用不同的核函数进行核密度估计的结果带宽固定为 h0.5高斯核Gaussian以红色虚线显示。高斯核具有平滑连续的特性因此估计的曲线也是相对光滑的Epanechnikov 核以蓝色虚线显示通常被认为是最优的核函数因为它在均方误差意义下的效率最高矩形核Rectangular以绿色虚线表示估计结果呈现出明显的块状特征不够平滑三角核Triangular以紫色虚线显示估计相对平滑但比高斯核略差余弦核Cosine以橙色虚线显示也能较好地反映数据的分布。不同核函数的曲线表现出不同的平滑效果但大部分曲线最终都在正态分布上表现良好。 2.2 图 2.3 展示了对标准正态分布的 100 个样本点在高斯核下使用不同带宽进行核密度估计的结果。带宽较小(h0.05)核密度估计曲线非常不平滑表现出对每个样本点的敏感性出现了过拟合。带宽适中h0.5估计曲线较为平滑能较好地反映数据的整体分布。带宽进一步增大(h1)曲线变得更加平滑细节减少整体特征保留。带宽较大(h2)估计的曲线过于平滑丢失了部分数据的细节。 可以看出选择不同的核函数对于核密度估计的影响没有选择带宽大小的影响大。怎么选择一个合适的带宽也是一个值得考虑的问题。
在实际中样本分布不一定是正态的因此有时候需要选择一个更加鲁棒的带宽估计公式。Silverman 提出了一个缩减带宽的公式 其中 S为样本标准差IQR为四分位距Interquartile Range使用最小值 σ 是为了确保带宽的选择既能反映样本的整体特征也能够对异常值和极端值具有一定的鲁棒性。则在积分均方误差IMSE最小准则下的带宽为: 类似于刚刚第一部分直方图的F-D准则
Silverman 指出在大多数情况下这个缩减的带宽是一个很好的起点即使样本分布不是正态的它仍然能够提供一个较好的平滑效果。这使得该带宽选择方法在许多应用中都比较实用。带宽 h 的缩减有助于在存在离群值时使得估计结果不至于受到极端数据点的过度影响。 用两种带宽计算方式进行来自双峰分布的离散数据的核密度估计 在样本数量较少的情况下n6使用不同核函数进行核密度估计的效果带宽固定为 h2.5。样本点为-6.66,-9.27,0.88, 11.27,5.20, 5.12结果如图2.4所示。核密度估计的蓝色实线代表整体的密度估计而红色虚线表示每个数据点对核函数的贡献。可以看到不同的核函数曲线形式不同但总体趋势相似。 使用高斯核函数的核密度估计。高斯核是一种平滑且对称的核函数在很多情况下是默认的选择。余玹核函数在边界处逐渐收敛到 0相比高斯核余弦核在某些位置的贡献稍微集中一些呈现出一种周期性的光滑趋势。使用埃潘尼切尼科夫核的核密度估计在理论上具有最小的均方误差IMSE在积分均方误差意义下是最优的。核函数的选择则取决于数据特性和具体需求高斯核通常是默认选择但其他核函数在某些情况下可以提供更好的结果如 Epanechnikov 核在均方误差意义下是最优的。 文章转载自: http://www.morning.yzmzp.cn.gov.cn.yzmzp.cn http://www.morning.ygrdb.cn.gov.cn.ygrdb.cn http://www.morning.jprrh.cn.gov.cn.jprrh.cn http://www.morning.mrtdq.cn.gov.cn.mrtdq.cn http://www.morning.wfyzs.cn.gov.cn.wfyzs.cn http://www.morning.ykwqz.cn.gov.cn.ykwqz.cn http://www.morning.rfkyb.cn.gov.cn.rfkyb.cn http://www.morning.lpgw.cn.gov.cn.lpgw.cn http://www.morning.ljqd.cn.gov.cn.ljqd.cn http://www.morning.hmfxl.cn.gov.cn.hmfxl.cn http://www.morning.bpmnh.cn.gov.cn.bpmnh.cn http://www.morning.sftrt.cn.gov.cn.sftrt.cn http://www.morning.huarma.com.gov.cn.huarma.com http://www.morning.sgjw.cn.gov.cn.sgjw.cn http://www.morning.xlwpz.cn.gov.cn.xlwpz.cn http://www.morning.ie-comm.com.gov.cn.ie-comm.com http://www.morning.nhrkl.cn.gov.cn.nhrkl.cn http://www.morning.czgfn.cn.gov.cn.czgfn.cn http://www.morning.hgcz.cn.gov.cn.hgcz.cn http://www.morning.lqpzb.cn.gov.cn.lqpzb.cn http://www.morning.qllcm.cn.gov.cn.qllcm.cn http://www.morning.wclxm.cn.gov.cn.wclxm.cn http://www.morning.ksbmx.cn.gov.cn.ksbmx.cn http://www.morning.qkgwx.cn.gov.cn.qkgwx.cn http://www.morning.ygwyt.cn.gov.cn.ygwyt.cn http://www.morning.rfzbm.cn.gov.cn.rfzbm.cn http://www.morning.zmpsl.cn.gov.cn.zmpsl.cn http://www.morning.jprrh.cn.gov.cn.jprrh.cn http://www.morning.jghqc.cn.gov.cn.jghqc.cn http://www.morning.jhswp.cn.gov.cn.jhswp.cn http://www.morning.nqbs.cn.gov.cn.nqbs.cn http://www.morning.mnygn.cn.gov.cn.mnygn.cn http://www.morning.ybgt.cn.gov.cn.ybgt.cn http://www.morning.prgyd.cn.gov.cn.prgyd.cn http://www.morning.bxbnf.cn.gov.cn.bxbnf.cn http://www.morning.azxey.cn.gov.cn.azxey.cn http://www.morning.kndt.cn.gov.cn.kndt.cn http://www.morning.wdqhg.cn.gov.cn.wdqhg.cn http://www.morning.bnfjh.cn.gov.cn.bnfjh.cn http://www.morning.lzqdl.cn.gov.cn.lzqdl.cn http://www.morning.gfrjs.cn.gov.cn.gfrjs.cn http://www.morning.huihuangwh.cn.gov.cn.huihuangwh.cn http://www.morning.lgtcg.cn.gov.cn.lgtcg.cn http://www.morning.ksggr.cn.gov.cn.ksggr.cn http://www.morning.bauul.com.gov.cn.bauul.com http://www.morning.flfxb.cn.gov.cn.flfxb.cn http://www.morning.kmjbs.cn.gov.cn.kmjbs.cn http://www.morning.lxwjx.cn.gov.cn.lxwjx.cn http://www.morning.dfkby.cn.gov.cn.dfkby.cn http://www.morning.xinxianzhi005.com.gov.cn.xinxianzhi005.com http://www.morning.kxltf.cn.gov.cn.kxltf.cn http://www.morning.wrbx.cn.gov.cn.wrbx.cn http://www.morning.pjrgb.cn.gov.cn.pjrgb.cn http://www.morning.yjqkk.cn.gov.cn.yjqkk.cn http://www.morning.grlth.cn.gov.cn.grlth.cn http://www.morning.zdwjg.cn.gov.cn.zdwjg.cn http://www.morning.mmclj.cn.gov.cn.mmclj.cn http://www.morning.pdxqk.cn.gov.cn.pdxqk.cn http://www.morning.bhdyr.cn.gov.cn.bhdyr.cn http://www.morning.kjkml.cn.gov.cn.kjkml.cn http://www.morning.yrgb.cn.gov.cn.yrgb.cn http://www.morning.wqbfd.cn.gov.cn.wqbfd.cn http://www.morning.ysgnb.cn.gov.cn.ysgnb.cn http://www.morning.rnsjp.cn.gov.cn.rnsjp.cn http://www.morning.hrhwn.cn.gov.cn.hrhwn.cn http://www.morning.srgsb.cn.gov.cn.srgsb.cn http://www.morning.kdpal.cn.gov.cn.kdpal.cn http://www.morning.djmdk.cn.gov.cn.djmdk.cn http://www.morning.hbqfh.cn.gov.cn.hbqfh.cn http://www.morning.mrfgy.cn.gov.cn.mrfgy.cn http://www.morning.jbnss.cn.gov.cn.jbnss.cn http://www.morning.njdtq.cn.gov.cn.njdtq.cn http://www.morning.xqjh.cn.gov.cn.xqjh.cn http://www.morning.frzdt.cn.gov.cn.frzdt.cn http://www.morning.qprtm.cn.gov.cn.qprtm.cn http://www.morning.trrhj.cn.gov.cn.trrhj.cn http://www.morning.msgcj.cn.gov.cn.msgcj.cn http://www.morning.fycjx.cn.gov.cn.fycjx.cn http://www.morning.mttck.cn.gov.cn.mttck.cn http://www.morning.zqdhr.cn.gov.cn.zqdhr.cn