二元分类度量

您在此处：

二元分类度量

二元分类的度量有助于评估将数据分为两类的模型的性能。

准确性

除了使用 AUC 的总体准确性分数之外，还有两个额外的度量来理解二元分类模型的准确性。

模型准确性磁贴

查看模型做出正确和错误预测的频率 (1)。请查看阈值截止点，了解预测如何在类之间分类 (2)。

混淆矩阵

使用混淆矩阵来评估基于阈值的不同错误类型之间的权衡。该图表显示了模型在相关阈值下对观察值进行正确和错误分类的次数。

混淆矩阵图

ROC 曲线

接收器工作特性 (ROC) 曲线显示不同阈值设置下的性能测量。ROC 是概率曲线，AUC（曲线下面积）量化了可分性的程度。使用该图表查看模型如何有效地区分类。

ROC 曲线图

收益和提升

收益和提升图表显示了模型的益处。通过使用部分数据进行评分和排序以进行分析，图表测量了使用模型获得的结果与不使用模型的随机猜测的结果。收益越大，提升越高，模型就越有效。

ROC 曲线图

图表	描述
收益	收益图按数据的百分比绘制总正比率或收益。模型线越接近理论精确度（完美模型），离随机猜测越远（无模型），收益越大。收益可用于确定组织的资源优先级。例如，如果一个模型在 20% 的数据上有 80% 的收益，那么用前 20% 的数据就可以达到 80% 的目标。
提升	提升图按数据的百分比绘制改善率或提升。更好的模型具有更高的提升。例如，如果一个模型在 20% 的数据中具有 2.5 的提升，那么在数据的前 20% 中使用该模型时，获得的结果比不使用该模型时获得的结果好 2.5 倍。

图表

描述

收益

收益图按数据的百分比绘制总正比率或收益。模型线越接近理论精确度（完美模型），离随机猜测越远（无模型），收益越大。收益可用于确定组织的资源优先级。

例如，如果一个模型在 20% 的数据上有 80% 的收益，那么用前 20% 的数据就可以达到 80% 的目标。

提升

提升图按数据的百分比绘制改善率或提升。更好的模型具有更高的提升。

例如，如果一个模型在 20% 的数据中具有 2.5 的提升，那么在数据的前 20% 中使用该模型时，获得的结果比不使用该模型时获得的结果好 2.5 倍。

4 倍交叉验证结果

4 倍交叉验证方法减轻了模型验证过程中的采样偏差。在这种方法中，数据被随机分成大小相等的四个独立分区，模型经历四次测试（倍）。在每一次测试中，三个分区用作训练数据，而剩下的一个用作测试数据。通过完成四次测试，每个分区一次用作验证数据，三次用作训练数据的一部分，从而确保全面的评估。参考验证结果表，检查与数据的每个倍数相对应的指标。

交叉验证度量表

度量	描述
记录数	观察总数。值的含义因列而异。对于训练数据和验证数据列，数字相同。此值表示在创建模型时使用的整个数据的观察总数。对于倍数 1 至倍数 4 列，该值表示该倍数中有多少个观察值（约占整个数据的 25%）。
AUC	曲线下面积 (AUC) 代表逻辑模型的正确分类率。 0.5 表示模型表现不如随机猜测。 1.0 表示模型在 100% 的时间内正确分类数据，这可以表示数据泄露。
GINI	Gini 指数量化了这种逻辑模型与理论上最佳模型的接近程度。

度量

描述

记录数

观察总数。值的含义因列而异。

对于训练数据和验证数据列，数字相同。此值表示在创建模型时使用的整个数据的观察总数。
对于倍数 1 至倍数 4 列，该值表示该倍数中有多少个观察值（约占整个数据的 25%）。

AUC

曲线下面积 (AUC) 代表逻辑模型的正确分类率。

0.5 表示模型表现不如随机猜测。
1.0 表示模型在 100% 的时间内正确分类数据，这可以表示数据泄露。

GINI

Gini 指数量化了这种逻辑模型与理论上最佳模型的接近程度。

其他度量

考虑通常用于评估模型质量的其他度量。

度量	描述
准确性	准确性衡量模型正确预测结果的比例（真阳性和真阴性）。用于评估模型的整体分类性能。该范围从 0 到 1，值越高，性能越好。计算为 `(True Negative+True Positive)/(True Negative+False Negative+True Positive+False Positive).`
F1 分数	F1 分数是阳性预测值（精度）和真阳性率（召回）的和谐平均值。用于评估二元分类模型的整体性能，特别是在最小化假阳性和假阴性同样重要时。该范围从 0 到 1，值越高，性能越好。计算为 2`(Positive Predicted ValueTrue Positive Rate)/(Positive Predicted Value+True Positive Rate)`。
假阴性	实际为正的预测负数。
假阴性率	假阴性率 (FNR，也称为 II 型错误或漏报率) 是预测假阴性在所有实际阳性中的比例。用于评估分类模型错误地将阳性分类为阴性的频率，或者当最小化假阴性错误很重要时。该范围从 0 到 1，较低的值表示性能更好。计算为 `False Negative/(False Negative+True Positive)`。
假阳性	实际为负的预测阳性的数量。
假阳性率	假阳性率（FPR，也称为类型 I 误差、假警报率或影响）是所有实际阴性中预测的假阳性的数量。用于评估分类模型错误地将阴性分类为阳性的频率，或最小化假阳性错误的重要性。该范围从 0 到 1，较低的值表示性能更好。计算为 `False Positive/(False Positive+True Negative)`。
表达性	知情性（也称为 Youden 的 J 统计）衡量模型预测积极和消极因素的程度。用于评估二元分类模型的整体性能，特别是在对真阳性和真阴性进行分类同样重要时。范围从 -1 到 1，1 表示完美性能，0 表示随机性能，-1 表示完美反向性能。计算为 `True Positive Rate+True Negative Rate-1`。
标记性	标记性衡量模型对积极和消极预测的信任度。用于评估二元分类模型的整体性能，特别是当单独评估正面和负面的性能很重要时。范围从 -1 到 1，1 表示完美性能，0 表示随机性能，-1 表示完美反向性能。计算为 `Positive Predicted Value+Negative Predicted Value-1`。
MCC	与其他度量相比，对于混淆矩阵的四个部分，Matthews 相关系数 (MCC) 提供更均匀的表征。用于评估整体性能，特别是在数据不平衡时。范围从 -1 到 1，1 表示完美性能，0 表示随机性能，-1 表示完美反向性能。计算为 `(True PositiveTrue Negative-False PositiveFalse Negative )/square root((True Positive+False Positive)(True Positive+False Negative)(True Negative+False Positive)*(True Negative+False Negative))`。
负预测值	负预测值 (NPV) 是实际负值在所有预测负值中的比例。用于评估分类模型预测消极实例的效果，或者何时最小化假阴性很重要。该范围从 0 到 1，值越高，性能越好。计算为 `True Negative/(True Negative+False Negative)`。
正预测值（精度）	阳性预测值 (PPV，也称为精度) 是实际阳性在所有预测阳性中的比例。用于评估分类模型预测阳性实例的效果，或者何时最小化假阳性很重要。该范围从 0 到 1，值越高，性能越好。计算为 `True Positive/(True Positive+False Positive)`。
真阴性	实际为负的预测负数。
真阴性率（特异性）	真阴性率 (TNR，也称为特异性) 是预测阴性在所有实际阴性中的比例。用于评估分类模型正确分类消极情况的频率，或正确识别消极实例的重要性。该范围从 0 到 1，值越高，性能越好。计算为 `True Negative/(True Negative+False Positive)`。
真阳性	实际为阳性的预测阳性的数量。
真阳性率（灵敏度、召回）	真阳性率（TPR，也称为敏感性或召回）是预测阳性在所有实际阳性中的比例。用于评估分类模型正确分类阳性的频率，或正确识别阳性实例的重要性。该范围从 0 到 1，值越高，性能越好。计算为 `True Positive/(True Positive+False Negative)`。

本文章是否解决您的问题？

请与我们共享您的想法，以便我们进行改进！

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。

二元分类度量

准确性

混淆矩阵

ROC 曲线

收益和提升

4 倍交叉验证结果

其他度量

General Information

Required Cookies

Functional Cookies

Advertising Cookies

General Information

Required Cookies

Functional Cookies

Advertising Cookies

Cookie List

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。切换为英语而非现在

产品区域

功能影响

版本

体验

二元分类度量

准确性

混淆矩阵

ROC 曲线

收益和提升

4 倍交叉验证结果

其他度量

此文本已使用 Salesforce 机器翻译系统进行翻译。如需了解更多详情，请点击此处。