python做网站设计,公司常用网站开发软件,代做百度首页排名,小程序游戏排名目录 二分类模型的评价指标准确率(Accuracy,ACC)精确率(Precision,P)——预测为正的样本召回率(Recall,R)——正样本注意事项 P和R的关系——成反比F值F1值F值和F1值的关系 ROC#xff08;Receiver Operating Characteristic#xff09;——衡量分类器性能的工具AUC#xff… 目录 二分类模型的评价指标准确率(Accuracy,ACC)精确率(Precision,P)——预测为正的样本召回率(Recall,R)——正样本注意事项 P和R的关系——成反比F值F1值F值和F1值的关系 ROCReceiver Operating Characteristic——衡量分类器性能的工具AUCArea Under roc Curve——ROC曲线下面积的计算MAP Mean Average PrecisionK——评估检索策略效果评估指标之一PrecK和APK 针对搜索引擎——在不同场景下如何选择合适的评估指标长尾词 参考文档 机器学习-模型评价指标 深入理解搜索引擎——搜索评价指标 搜索排序评估方法——产品角度 二分类模型的评价指标
预测值\真实值PositiveNegativePositiveTrue Positive(TP)False Positive(FP)NegativeFalse Negative(FN)True Negative(TN) TP真正例真阳性。样本是正例预测为正分类正确 FP假正例假阳性。样本是负例预测为正分类错误。误诊 TN真负例真阴性。样本是负例预测为负分类正确 FN假负例假阴性。样本为正例预测为负分类错误。漏诊 准确率和召回率广泛用于信息检索和统计学分类领域的两个度量值用于评价结果的质量。其中准确率是检索出相关文档数与检索出的文档总数的比率衡量的是检索系统的查准率召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率衡量的是检索系统的查全率。
准确率(Accuracy,ACC)
即正确预测的样本数比总体样本数 优点
计算简单准确率的计算公式简单易懂只需要将正确分类的样本数除以总样本数即可。可解释性强准确率是一个比例因此它可以很容易地解释和理解。例如如果准确率为80%这意味着模型正确分类了80%的样本。
局限性
不适用于不平衡数据集当数据集中的正负样本不平衡时准确率可能会给出误导性的结果。例如如果模型将所有样本预测为负样本那么准确率会很高但实际上模型并没有很好地捕捉到正样本的特征。对噪声敏感准确率对噪声比较敏感一些错误的预测可能会对准确率产生较大的影响。无法衡量模型的稳定性准确率只能衡量模型整体的分类效果无法衡量模型在不同情况下的稳定性。
举例说明如下 假设有一个二分类问题数据集中有100个样本其中80个是负样本20个是正样本。 如果我们有一个模型它能够将所有样本预测为负样本那么准确率将是80%因为80个负样本被正确分类了。但是这个模型并没有很好地捕捉到正样本的特征因为它没有预测任何正样本为正样本。 因此在这种情况下使用准确率作为评估指标是不合适的因为它不能反映模型对正样本特征的捕捉能力。 精确率(Precision,P)——预测为正的样本
即模型预测为正的样本里真正为正的比例 召回率(Recall,R)——正样本 召回率也叫做敏感度(Sensitivity)即在所有正样本中模型准确找出的比例
注意事项
P高代表模型预测为正基本上就是正。表示其很准。但很准的原因可能是模型太严格例如100个正例模型只判断了其中1个为正确实这个样本分对了但是依旧错分了其他99个造成假阴性变高。 R高代表模型更能够把正样本从样本中找出来漏诊率低很敏感稍微不对就会判正。但例如模型把所有样本都判为正此时召回率确实高但没有意义。会带来很高的假阳性。
举例说明 假设我们有100个样本其中99个是正样本1个是负样本。 现在有一个模型它预测其中1个样本为正样本。 首先我们来计算精确率Precision 精确率 预测为正样本且实际为正样本的样本数 / 预测为正样本的样本数 在这个例子中预测为正样本的样本数是1而预测为正样本且实际为正样本的样本数也是1因为只有一个正样本被预测为正样本。 所以精确率 1/ 1 100%。 接下来我们来计算召回率Recall 召回率 预测为正样本且实际为正样本的样本数 /所有实际为正样本的样本数 在这个例子中所有实际为正样本的样本数是99。 所以召回率 1 / 99 0.01。 需要注意的是这里计算的召回率非常低这是因为模型过于严格只预测了一个正样本。而实际上应该尽可能提高召回率以便尽可能多地预测出正样本。因此在实际应用中需要根据具体需求来调整模型的预测标准。
P和R的关系——成反比
可以认为P和R在一定程度上是成反比的。 图片源于网络
在二分类问题中精确率P和召回率R是一对矛盾的指标提高一个就意味着另一个的降低。
这是因为这两个指标都涉及到预测为正样本的样本中真正为正样本的比例但它们考察的角度不同。精确率是考虑预测为正样本的样本中有多少是真正的正样本而召回率是考虑实际为正样本的样本中有多少被预测为正样本。
当模型过于严格时可能会提高精确率但可能会导致召回率下降因为模型过于严格可能会导致将一些正样本误分为负样本。相反如果模型过于宽松可能会提高召回率但可能会导致精确率下降因为模型过于宽松可能会导致将一些负样本误分为正样本。 因此可以认为精确率和召回率在一定程度上是成反比的。在评估模型时需要综合考虑这两个指标以便更全面地评估模型的性能。同时也需要根据实际应用场景来调整模型的预测标准以获得更好的模型性能。
总结即高P很容易降低R高R很容易降低P。两者需要权衡
F值
F值是精确率和召回率的调和平均数用于综合考虑这两个指标给出更全面的评估结果。 F值越大说明模型的性能越好。在分类问题中F值可以用来评估模型的整体性能特别是当精确率和召回率存在矛盾时。通过绘制Precision-Recall曲线可以得到不同阈值下的精确率和召回率组合从而找到最优的F值。
F1值 F1值越高说明模型的性能越好。F1值提供了一个平衡的评估标准在评估分类模型时我们通常希望同时获得高精确率和召回率但这是比较困难的。
F1值能够更好地反映模型的总体性能因为它同时考虑了精确率和召回率。其次F1值对于不平衡数据集的处理能力更强因为它通过权重平均的方式处理了不同类别的样本。
F值和F1值的关系
F值和F1值非常相似都用于综合考虑精确率和召回率给出更全面的评估结果。
当精确率和召回率相等时F值和F1值相等。在其他情况下F1值更注重精确率和召回率的平衡如果一个模型的精确率很高但召回率很低或者反之那么F1值将会比较低。因此F1值是一个更为严格的评估指标能够更好地衡量模型的性能。
在分类问题中F1值通常被用作评估指标因为它综合考虑了精确率和召回率能够更全面地反映模型的性能。如果一个模型的F1值很高说明它在精确率和召回率方面都表现得很好。
ROCReceiver Operating Characteristic——衡量分类器性能的工具
在评估搜索引擎策略时主要用于判断所使用的算法模型或者说算法组合的性能
ROCReceiver Operating Characteristic曲线是一种分类器的综合性能指标以假阳性率False Positive Rate, FPR为横坐标真阳性率True Positive Rate, TPR为纵坐标在平面直角坐标系中描绘的曲线形状。
ROC曲线的总面积是1曲线下方面积越大分类器的准确性越高。 因此可以用**曲线下面积Area Under CurveAUC**来衡量预测模型的优劣。AUC的值可以通过积分求得即对ROC曲线下方的图形面积进行计算。
ROC曲线在搜索引擎中有着重要的应用。例如在信息检索领域ROC曲线是衡量搜索引擎性能的一个重要因素可以用来比较不同搜索算法的优劣。利用ROC曲线可以对计算机程序进行性能评估以选择最佳的词向量表示算法。ROC曲线还可以用来调整搜索引擎的参数和优化模型。通过调整参数或更换模型可以改变ROC曲线的位置和形状从而提高搜索引擎的性能。例如可以调整召回算法的排序权重或增加相关反馈机制等以改善用户体验和提高搜索引擎的准确性。
AUCArea Under roc Curve——ROC曲线下面积的计算
通俗来说ROC曲线就像一个跷跷板敏感性和特异性是跷跷板的两端。
当敏感性和特异性都高的时候ROC曲线就会更靠近左上角曲线下方的面积就更大表示分类器的准确性更高。相反如果敏感性和特异性都低那么ROC曲线就会更靠近右下角曲线下方的面积就小表示分类器的准确性低。
AUC就是计算ROC曲线下的面积其值介于0和1之间。如果AUC接近1表示分类器的准确性很高如果AUC接近0或0.5则表示分类器的准确性较低。
因此通过ROC曲线和AUC值我们可以更直观地评估分类器的性能从而在实际应用中做出更好的决策。
MAP Mean Average PrecisionK——评估检索策略效果评估指标之一
MAP评估的是一组检索结果的平均精度即每个查询的平均相关文档数。它通过计算每个查询的平均精度然后将这些平均精度相加最后除以查询的总数。MAP考虑了每个查询的返回结果并对其精度进行了加权处理因此可以更好地反映检索策略的整体性能。
与传统的精确率、召回率和F1分数相比MAP更加符合实际检索任务的需求。在信息检索领域中用户通常更加关注检索结果的相关性和准确性而MAP正是从用户的角度出发对检索结果进行评估的一种指标。
因此在搜索引擎和信息检索领域中MAP已经成为评估检索策略效果的重要指标之一。通过提高MAP值可以提高搜索引擎的性能和用户体验。
PrecK和APK
PrecK和APK是MAP的组成部分并且都是用来评估检索策略效果的指标。
具体来说
PrecK表示设定一个阈值K在检索结果到第K个正确召回为止排序结果的相关度。APK则是指到第K个正确的召回为止从第一个正确召回到第K个正确召回的平均正确率。MAP则是Mean Average Precision的缩写表示一组检索结果的平均精度即每个查询的平均相关文档数。
MAP的计算需要使用到PrecK和APK通过计算每个查询的平均精度AP然后将这些平均精度相加最后除以查询的总数得到MAP的值。
举例说明 案例来源人人都是产品经理 注绿色表示搜索结果与搜索词相关红色表示不相关。 在这个案例中Prec11、Prec32/3、Prec53/5。也许你已经发现了PrecK也只能表示单点的策略效果为了体现策略的整体效果我们需要使用APK。
假设存在以下两个排序我们直观的理解结果1是优于结果2的那么这种优劣会如何体现在APK值中呢 对于结果1 APK(1.00.670.750.80.830.6)/60.78
对于结果2 APK(0.50.40.50.570.560.6)/60.52 可以看到效果优的排序结果的APK值大于效果劣的那一组。 在以上案例中 查询1的APK(1.00.670.50.440.5)/50.62 查询的2的APK(0.50.40.43)/30.44 则我们计算这个策略的MAPK(0.620.44)/20.53。 对使用MAPK进行评估的系统我们认为MAPK值较高的策略效果更好。
针对搜索引擎——在不同场景下如何选择合适的评估指标
由于搜索引擎需要处理海量数据如果召回率R即召回的相关文档的比例过高↑会对后续的排序和引擎的整体性能产生负面影响。具体来说高召回率会导致需要处理的数据量增加从而增加排序和返回结果的时间降低搜索引擎的性能↓。
如果过度追求精确率P可能会导致召回率R降低即很多真正的正样本没有被预测出来。在一些场景中如搜索引擎的垂直搜索垂搜场景可能需要更多的长尾词来带流量。但由于对精确率P的要求极高很多相关的词可能无法出现在搜索结果中导致召回率R降低。
因此在不同的应用场景中需要根据实际需求来选择合适的评估指标。如果希望模型的预测尽可能准确那么可以选择较高的精确率如果希望模型能够尽可能多地覆盖正样本那么可以选择较高的召回率。
为了更好地分析精确率和召回率之间的关系可以绘制Precision-Recall曲线。这条曲线可以通过改变模型的阈值来获得不同的精确率和召回率组合从而帮助我们更好地理解模型的性能。
此外还可以使用F值来调和精确率和召回率的互斥关系。F值是精确率和召回率的调和平均数它能够综合考虑这两个指标给出更全面的评估结果。
总之选择合适的评估指标需要根据实际应用场景来决定并综合考虑不同指标的优缺点和需求来进行权衡。
长尾词
长尾词是指非目标关键词但与目标关键词相关的能够带来搜索流量的组合型关键词。 长尾词通常较长可能是2-3个词组成甚至是短语存在于内容页面除了内容页的标题还存在于内容中。长尾词具有可延伸性、针对性强、范围广等特征。
在搜索引擎优化SEO中长尾词是非常重要的概念。长尾理论认为通过大量的小市场累积起来可以占据市场中可观的份额。对于网站来说长尾词带来的总流量非常大。 例如如果一个网站的目标关键词是“服装”那么其长尾词可能包括“男士服装”、“冬装”、“户外运动装”等。 因此在网站优化中需要关注长尾词的优化。通过合理地选择和利用长尾词可以提高网站的流量和转化率。同时需要分析市场趋势和用户需求以便找到更有价值的长尾词并选择有利可图的优化词类实现搜索条件的最优化。