机器学习 - Evaluation
Classification Metrics
Confusion Matrix 的相关内容在 机器学习 - Confusion Matrix 中。
Accuracy
在有 \(m\) 个实例的测试数据集中的“平均正确率”:
\[
A = \frac{1}{m}\sum_{j = 1}^{m}[\hat{y}_{j} = y_{j}]
\]
其中
\(\hat{y}_{j} = M(x_{j})\) 是模型 \(M\) 对于第 \(j\) 个实例 \(x_{j}\) 的预测值
\(y_{j}\) 是第 \(j\) 个实例的实际值
\([P] = \left\{\begin{array}{}1\ \mbox{if P is true}\\0\ \mbox{otherwise}\end{array}\right.\) (Iverson bracket)
Precision, Recall, F1
Recall:当 false negative (FN) 代价大时,增加该值。如癌症预测。
Precision:当 false positive (FP) 代价大时,增加该值。如垃圾邮件预测、卫星发射时间预测。
F1 Score:\(f_1 = \frac{2}{1/P+1/R}\) 其中 \(P\) 和 \(R\) 分别为 Precision 和 Recall
ROC, AUC
Receiver Operator Characteristic (ROC) Curve
对角线表示随机,即 50% 的正确率
如果 ROC 曲线在随机线的上方,那么该模型比随机更准确
完美的曲线满足 TPR = 1 且 FPR = 0
Area Under Curve (AUC) of ROC
AUC 是一个精确的数值衡量标准,可用于更清晰的比较
当 AUC > 0.5 时,模型比随机更准确
AUC ≈ 1 表示模型非常准确
Micro- and Macro-Averaging
Multiclass evaluation metrics
Micro-Average:
Macro-Average:
Regression Metrics
1D regression
Mean Absolute Error (MAE):
\[
\mathrm{MAE} = \frac{1}{m}\sum_{j = 1}^{m}|\hat{y}_{j} - y_{j}|
\]
Mean Squared Error (MSE):
\[
\mathrm{MSE} = \frac{1}{m}\sum_{j = 1}^{m}(\hat{y}_{j} - y_{j})^2
\]
Root Mean Squared Error (RMSE):
\[
\mathrm{RMSE} = \sqrt{\frac{1}{m}\sum_{j = 1}^{m}(\hat{y}_{j} - y_{j})^2}
\]
Vector Regression
Euclidean Distance:
\[
d = \sqrt{(\hat{y} - y)^{T}(\hat{y} - y)}
\]
Cosine Similarity:
\[
s = \cos(\theta) = \frac{\hat{y}}{\Vert\hat{y}\Vert_2}\cdot\frac{y}{\Vert y\Vert_2}
\]
Angular Distance:
\[
\theta = \cos^{-1}(s)
\]