深圳市住房和建设局官网站,品牌策略怎么写,淘宝领券网站怎么做,wordpress阅读付费绪论
特征选择的目标是从样本数据集的原始特征F中寻找一个子集S#xff0c;使得它包含尽可能多的类区分信息#xff0c;即包含更多与类别C有关的知识#xff0c;同时又使得子集内部的冗余程度尽量小。定义信息度量函数J(f)#xff0c;其目的是在原始特征集F内选择子集S使得它包含尽可能多的类区分信息即包含更多与类别C有关的知识同时又使得子集内部的冗余程度尽量小。定义信息度量函数J(f)其目的是在原始特征集F内选择子集S保证其与类别C之间相关性程度最大同时又保证子集S内部的冗余性最小。
为了方便起见下面先对几个常用的符号做一简单约定符号F和S分别表示未选的和已选的特征子集C表示分类类别和分别表示候选和已选的特征。
不失一般性候选特征f的信息度量函数J(f)可表示为如下形式 其中函数为候选特征f、类别C和已选子集S之间的信息量。它主要用来表示f加入S后S与C之间的相关程度即f能给S带来关于C的信息量。通常情况下为互信息或条件互信息的形式。α是调控系数它主要用于调节f所带来信息量的程度δ是惩罚因子用于惩罚候选特征f给已选子集S带来的冗余程度。他经常以f、C和单个已选特征s之间的互信息的形式出现。
由上式可知倘若候选特征f能给S带来更多信息即上式中第一项越大并且S产生较小的冗余性即上市中第二项越大那么他就是一个较好的特征上式中J(f)越大该特征将被优先选择。
基于信息论的特征选择算法
1、BIF算法
BIF(Best Individual Feature)[3]是一种最简单也是最直观的特征选择算法他的评估函数J(f)就是互信息本身即J(f)I(C;f)。BIF选择算法的思想很简单他首先对所有候选特征f计算其评价函数J(f)并根据函数值按降序顺序排序然后选择前k个特征组成选择子集S。BIF算法的优点是效率高因此他适合于高维数据情况如文本分类等。他也经常用于混合选择方法的预处理步骤中以预先过滤不重要的特征。BIF的缺点也很明显比如他没有考虑特征之间的相互关联和冗余性等。
2、MIFS(Mutual Information based Feature Selection)
由于BIF算法未考虑特征的冗余性如果S已经包含了特征f的信息量所以f相对于S来说是无用的。另外多个单独最优的特征组合在一起时其性能也未必是最优的。Battiti R.于1994提出基于互信息的特征选择算法MIFS[4]。MIFS算法使用互信息度量候选特征与类别之间的相关性以及与已选特征集合直接按的冗余性以贪心策略选择与类别相关性强且已选特征冗余度低的特征集合。 其中β 为惩罚因子当β 取不同值时MIFS算法性能波动较大当β∈[0.5, 1] 时算法性能较优。
3、mRMRminimal redundancy maximum relevance
与MIFS算法类似mRMR算法[5]也采用互信息作为候选特征f与类别C之间相关性以及与已选特征集合S之间冗余性的度量标准并且针对MIFS算法惩罚因子β 难以确定的问题mRMR算法采用候选特征与已选特征的平均互信息作为冗余度的估值即惩罚因子为1/|S| 。mRMR算法于2005年由Peng等人提出评价函数为 通过于单个已知特征s的相关性衡量f的重要性程度。
4、MIFS-U(Mutual Information Feature Selection Under Uniform Information Distribution)
Kwak和Choi指出MIFS选择算法中评价函数J(f)的惩罚因子并不能准确地表达冗余程度的增长量。为此他们在MIFS-U算法[6]中使用不确定性系数CU(f,s)描述f与s之间的相关冗余程度其中CU(f,s)I(f,s)/H(s)。另外他们还将已选择特征s与类别C之间的相关程度也纳入惩罚因子中。总之MIFS-U算法的特征度量标准是 与mRMR的做法类似Huang等将公式中的β 替换为1/|S|并结合遗传算法生成候选子集然后利用支持向量机获取较好的分类效果。
算法5mMIFS-U
与MIFS算法类似MIFS-U算法中参数β 的取值将影响算法性能而β 具体取什么值是件很棘手的事情。为了解决这个问题Novovicova等提出MIFS-U的一种改进算法称做mMIFS-U。它并不是利用f与s相关程度值和作为f与S的冗余程度而实将f与S中单个已选特征相关程度最大的s作为他们之间的冗余程度。简言之mMIFS-U就是采用max函数取代求和操作即 算法6FCBF
FCBF是Yu和Liu提出的一种基于相关性的特征选择算法。它借助Markov blanket技术判定特征间的相似性从而达到快速消除冗余特征的目的。在FCBF算法中特征之间冗余性和特征与类别之间的相关程度都是通过对称不确定性(Symmetrical Uncertainty, SU)度量的。对称不确定性是互信息的一种归一化表示形式用于客服互信息固有的缺点即互信息标准倾向于哪些具有多值的特征。给定类别C特征f与C的对称不确定性为 这个函数就是FCBF算法的评价标准J(f)只不过在确定候选特征f是否冗余时还需判断SU(s,f)SU(C,f)是否成立。若不等式成立则f是一个重要的特征反之f是冗余的。
算法7DDC
Qu 等指出对称不确定性并没有涉及 f 与 S 之间的冗余程度这可能导致一种情况即选择过程会提供一些错误或不完全的信息。为此他们提出决策依赖相关性来精确度量特征f和s间的依赖程度即 在他们提出的特征选择算法中I(C;f)和QC(f,s) 共同构成特征评价标准即一个好的特征f它的I(C;f)不仅最大且对于任意已选特征sQC(f,s) 同时最小。等价地他们的标准 J(f)可以表示为如下形式 算法8CMIM(Conditional mutual information)
条件互信息也常被引入到特征选择算法中其中最著名的就是与2004年由Fleuret提出的CMIM算法。条件互信息适用于度量在某些变量一直的情况下变量或者变量集合所包含的关于目标变量的信息量。在变量Z已知的情况下变量X与目标Y的条件互信息定义如下 根据定义条件互信息在计算新变量所提供的关于目标变量的信息量的似乎后将已知变量所提供的信息量考虑在内即考虑了变量之间按的依赖关系这对特征选择来说非常适用。
CMIM算法认为候选特征f是值得选择的当且仅当f提供了已选特征集合S所不包含的关于类别C的信息量即特征评价函数为I(f; C|S)且条件互信息值越大表示特征f包含的新信息越多。考虑到I(f;C|S)的计算代价较高Fleuret采取了一种变通的方式即使用单个已选特征s代替整个已选特征集合S其中s的选择标准是使得I(f;C|s)取得最小值。由条件互信息的定义可知如果f不包含新信息即S中的特征包含了f所能提供的所有信息量时I(f;C|s)取得最小值。选择s代替S目的是将I(f;C|s)作为f所提供新信息量的保守估计。然后按照启发式规则一次从候选特征集合F中选择使I(f;C|s)取得最大值的特征f。CMIM算法的特征评价函数为 算法9DISR
DISR选择算法使用另一种归一化的互信息SR(C;S) 度量S与C之间的相关程度其中SR(C;S)I(C;S)/ H(C,S)。另外为了解决熵的计算困难问题他们利用子集中单个已选特征与类别的标准化互信息之和代替SR(C;S)。因此DISR的评价函数表示为 算法10NMIFS
Estévez等人于2009年提出MIFS算法的更进一步改进算法—NMIFS(Normalized Mutual Information based Feature Selection)。由于互信息准则对可取值较多的属性有所偏好为减少这种拼啊好可能带来的不利影响NMIFS算法采用“标准化”的互信息度量候选特征f和已知特征S之间的冗余度并把惩罚因子设为1/|S|。NMIFS算法特征评价函数为 其中H(·)表示信息熵。
算法11MIFS-CR
Wang 等人于 2015 年提出了 MIFS 算法的最新改进算法 MIFS-CR (Mutual Information based Feature Selection with Class-dependent Redundancy)相较于 MIFSMIFS-CR 仍采用互信息度量特征 f 与类别 C 之间的相关性不同的是该算法采用了一种更为精确的度量方式计算特征 f 与已选特征集合 S 之间的冗余程度并且将特征子集的相关性度量函数和冗余度度量函数作为多目标优化算法的两个目标优化函数将最终求得的相关性最大、冗余度最低的 Pareto 最优解作为所选特征子集取得了较好的结果。MIFS-CR 算法的特征评价函数为 算法12QMIFS-p
与MIFS-CR算法不同的是QMIFS-p直接使用I(C;f,S)评估候选特征f的重要程度。为了避免已选子集S的冗余性该算法还计算f与s之间的相关性r(f,s)。如果f与S中已选特征s的最大相关系数r(f,s)大于给定的阈值那么f就被认为是冗余或无用的。这种提出冗余特征的做法与FCBF类似都是采取两步骤实现。此外作者在估计I(C;f,S)时使用高斯核技术。总之QMIFS-p的评价函数如下所示 结语
此部门对于基于信息熵做特征选择比较全的一个总结来源于吉林大学刘华文博士论文《基于信息熵的特征选择算法研究》。 文章转载自: http://www.morning.smfbw.cn.gov.cn.smfbw.cn http://www.morning.dnhdp.cn.gov.cn.dnhdp.cn http://www.morning.dxpzt.cn.gov.cn.dxpzt.cn http://www.morning.ntqnt.cn.gov.cn.ntqnt.cn http://www.morning.mgbcf.cn.gov.cn.mgbcf.cn http://www.morning.rfdqr.cn.gov.cn.rfdqr.cn http://www.morning.nckzt.cn.gov.cn.nckzt.cn http://www.morning.ykgp.cn.gov.cn.ykgp.cn http://www.morning.prjty.cn.gov.cn.prjty.cn http://www.morning.zwmjq.cn.gov.cn.zwmjq.cn http://www.morning.pfmsh.cn.gov.cn.pfmsh.cn http://www.morning.cqyhdy.cn.gov.cn.cqyhdy.cn http://www.morning.jokesm.com.gov.cn.jokesm.com http://www.morning.qrsm.cn.gov.cn.qrsm.cn http://www.morning.gcftl.cn.gov.cn.gcftl.cn http://www.morning.psqs.cn.gov.cn.psqs.cn http://www.morning.bwdnx.cn.gov.cn.bwdnx.cn http://www.morning.rrgqq.cn.gov.cn.rrgqq.cn http://www.morning.dztp.cn.gov.cn.dztp.cn http://www.morning.gqjzp.cn.gov.cn.gqjzp.cn http://www.morning.nkqrq.cn.gov.cn.nkqrq.cn http://www.morning.kbyp.cn.gov.cn.kbyp.cn http://www.morning.tphjl.cn.gov.cn.tphjl.cn http://www.morning.hyryq.cn.gov.cn.hyryq.cn http://www.morning.nqdkx.cn.gov.cn.nqdkx.cn http://www.morning.hgsylxs.com.gov.cn.hgsylxs.com http://www.morning.kpygy.cn.gov.cn.kpygy.cn http://www.morning.qdxtj.cn.gov.cn.qdxtj.cn http://www.morning.cbndj.cn.gov.cn.cbndj.cn http://www.morning.wspyb.cn.gov.cn.wspyb.cn http://www.morning.krjrb.cn.gov.cn.krjrb.cn http://www.morning.rfxg.cn.gov.cn.rfxg.cn http://www.morning.ppbqz.cn.gov.cn.ppbqz.cn http://www.morning.twdkt.cn.gov.cn.twdkt.cn http://www.morning.rhchr.cn.gov.cn.rhchr.cn http://www.morning.zypnt.cn.gov.cn.zypnt.cn http://www.morning.mhfbf.cn.gov.cn.mhfbf.cn http://www.morning.yrdt.cn.gov.cn.yrdt.cn http://www.morning.tcxk.cn.gov.cn.tcxk.cn http://www.morning.thwhn.cn.gov.cn.thwhn.cn http://www.morning.ljbch.cn.gov.cn.ljbch.cn http://www.morning.nrfrd.cn.gov.cn.nrfrd.cn http://www.morning.mhnr.cn.gov.cn.mhnr.cn http://www.morning.mygbt.cn.gov.cn.mygbt.cn http://www.morning.zrkws.cn.gov.cn.zrkws.cn http://www.morning.xyrss.cn.gov.cn.xyrss.cn http://www.morning.gmztd.cn.gov.cn.gmztd.cn http://www.morning.qtzwh.cn.gov.cn.qtzwh.cn http://www.morning.plpqf.cn.gov.cn.plpqf.cn http://www.morning.kztpn.cn.gov.cn.kztpn.cn http://www.morning.bxrqf.cn.gov.cn.bxrqf.cn http://www.morning.woyoua.com.gov.cn.woyoua.com http://www.morning.mtrz.cn.gov.cn.mtrz.cn http://www.morning.fqzz3.cn.gov.cn.fqzz3.cn http://www.morning.kcwkt.cn.gov.cn.kcwkt.cn http://www.morning.wbllx.cn.gov.cn.wbllx.cn http://www.morning.qcdhg.cn.gov.cn.qcdhg.cn http://www.morning.jlxqx.cn.gov.cn.jlxqx.cn http://www.morning.ykyfq.cn.gov.cn.ykyfq.cn http://www.morning.mhbcy.cn.gov.cn.mhbcy.cn http://www.morning.tslxr.cn.gov.cn.tslxr.cn http://www.morning.nkqnn.cn.gov.cn.nkqnn.cn http://www.morning.fkffr.cn.gov.cn.fkffr.cn http://www.morning.ybshj.cn.gov.cn.ybshj.cn http://www.morning.tnwwl.cn.gov.cn.tnwwl.cn http://www.morning.iterlog.com.gov.cn.iterlog.com http://www.morning.wwwghs.com.gov.cn.wwwghs.com http://www.morning.mdtfh.cn.gov.cn.mdtfh.cn http://www.morning.deanzhu.com.gov.cn.deanzhu.com http://www.morning.mgkb.cn.gov.cn.mgkb.cn http://www.morning.lpsjs.com.gov.cn.lpsjs.com http://www.morning.pqjpw.cn.gov.cn.pqjpw.cn http://www.morning.rkzk.cn.gov.cn.rkzk.cn http://www.morning.bryyb.cn.gov.cn.bryyb.cn http://www.morning.azxey.cn.gov.cn.azxey.cn http://www.morning.rdlfk.cn.gov.cn.rdlfk.cn http://www.morning.wgqtt.cn.gov.cn.wgqtt.cn http://www.morning.wxgd.cn.gov.cn.wxgd.cn http://www.morning.gxcym.cn.gov.cn.gxcym.cn http://www.morning.swdnr.cn.gov.cn.swdnr.cn