9.2 模型的性能评估 - 大数据金融(Big Data in Finance)

1. 精度与错误率¶

如何评估一个模型的好坏，一个自然而然的想法就是：模型给出的预测值与真实值进行对比。

错误率：分类错误的样本数占样本总数的比例
准确率(也称精度）：分类正确样本数占样本总数的比例

精度计算如下：

准确率= \frac{预测正确的样本数}{总样本数}

错误率 = 1 - 准确率

在二分类任务（类别为两类）中，假如我们定义’positive’ 和 ‘negative’ 为分类的预测结果，而 ‘true’ and ‘false’ 指的是该预测是否符合

混淆矩阵（Confusion Matrix）

查准率（precision）

查准率 =\frac{TP}{TP+FP} = \frac{真正类}{真正类+假正类}

查全率（也叫召回率，recall）

查全率 = \frac{TP}{TP+FN} = \frac{真正类}{真正类+假负类}

从上图可以知道：

查准率：是基于「预测数据」，考察「真正例」的占比。
查全率：是基于「真实数据」，考察「真正例」的占比。

综合查准率与查全率，F1分数（F1 Score）为二者的调和平均数

F1 = 2\times\frac{ precision\times recall}{precision+recall} = 2\times\frac{ 查准率\times 查全率}{查准率+查全率}

F1 特别适用于评估在查准率和查全率之间需要权衡的情况。

医院使用一个分类模型来筛查癌症患者，将每个病人分类为“疑似癌症”或“非癌症”。

为什么需要高查准率：

假设筛查系统每天检查1000名患者，其中50人确实有癌症（正类），950人是健康的（负类）。模型预测出70个“疑似癌症”病例，其中40个是正确的（TP），30个是误报（FP）。

\text{精确率} = \frac{TP}{TP + FP} = \frac{40}{40 + 30} = 0.57

结果解释：

在医疗诊断系统中，特别是癌症筛查，需要高查准率以确保诊断结果的可靠性和准确性，从而避免对健康患者的误诊和不必要的后续检查。

警方使用一个分类模型来筛查和识别可能的失踪儿童，将每个孩子的照片分类为“可能是失踪儿童”或“非失踪儿童”。

为什么需要高查全率：

假设系统每天处理1000张儿童照片，其中20张是失踪儿童的（正类），980张是普通儿童的（负类）。模型预测出30张“可能是失踪儿童”的照片，其中15张是正确的（TP），15张是误报（FP），但有5个失踪儿童没有被识别出来（FN）。

**查全率（Recall）**计算：
$\text{查全率} = \frac{TP}{TP + FN} = \frac{15}{15 + 5} = 0.75$
(7)

结果解释：

在失踪儿童搜救系统中，优先考虑高查全率是至关重要的。这保证了大多数失踪儿童都能被识别并找到，从而避免孩子继续处于危险之中。