类别标签平滑理论推导[译]

原文：Label Smoothing - 2019.08.10
作者：Lei Mao

机器学习和深度学习中，往往采用很多正则化技术，比如L1，L2， dropout 等，来避免模型过拟合.

在分类任务中，模型有时候会对训练样本过度自信的预测，这对于模型的泛化能力是不好的.

这里，介绍类别标签平滑作为分类问题的正则化技术，避免模型对训练样本过度自信的预测.

1. 分类交叉熵损失函数

对于 K 类的分类问题， ${1, 2, . . ., K}$ , 例如，对于样本 i, 训练数据集中的 $(x_{i}, y_{i})$ ，则可以得到其关于类别标签的 groundtruth 分布 $p (y | x_{i})$ ，且 $\sum_{y = 1}^{K} p (y | x_{i}) = 1$ .

假设参数为 $θ$ 的模型，其预测的类别分布为 $q_{θ} (y | x_{i})$ ，且 $\sum_{y = 1}^{K} q_{θ} (y | x_{i}) = 1$ .

正如在 Cross Entropy, KL Divergence, and Maximum Likelihood Estimation 博文里所描述的，这里的交叉熵是：

$H_{i} (p, q_{θ}) = - \sum_{y = 1}^{K} p (y | x_{i}) l o g q_{θ} (y | x_{i})$

假设训练数据集中共有 n 个样本，则损失函数为：

$L = \sum_{i = 1}^{n} H_{i} (p, q_{θ})$

$L = - \sum_{i = 1}^{n} \sum_{y = 1}^{K} p (y | x_{i}) l o g q_{θ} (y | x_{i})$

2. One-Hot 类别编码

一般情况下， $p (y | x_{i})$ 是 one-hot 编码向量，有：

$p (y | x_{i}) = {\begin{cases} 1 & if y = y_{i} \\ 0 & otherwise \end{cases}$

基于此，损失函数可以进一步简约为：

$L = - \sum_{i = 1}^{n} \sum_{y = 1}^{K} p (y | x_{i}) l o g q_{θ} (y | x_{i})$

$L = - \sum_{i = 1}^{n} p (y_{i} | x_{i}) l o g q_{θ} (y_{i} | x_{i})$

最小化该损失函数，等价于对训练数据集的最大化似然估计.(证明可参考 Cross Entropy, KL Divergence, and Maximum Likelihood Estimation)

在损失函数优化过程中，如果训练数据集中不存在任何冲突的类别标签，是有可能将 $L$ 几乎最小化到值为0 的. 冲突的类别标签，是指，数据集中存在两个样本能够提取相同的特征，但其 groundtruth 类别标签不同.

由于 $q_{θ} (y_{i} | x_{i}) ）$ 往往是采用 softmax 函数计算得到的:

$q_{θ} (y_{i} | x_{i}) = \frac{e x p (z_{y_{i}})}{\sum_{j = 1}^{K} e x p (z_{j})}$

采用 One-hot 类别标签编码的结果是， $e x p (z_{y_{i}})$ 的值非常大，其它 $e x p (z_{j}), j \neq y_{i}$ 的值非常小.给定一个无冲突(non-conflicting) 的数据集，模型会将每个训练样本以置信度几乎为 1 的正确预测. 这显然是过拟合的一个信号，过拟合的模型，其泛化能力不够好.

那么如何确认在模型训练过程中，不是朝着对训练数据中的类别标签过度自信的方向呢？采用无冲突的训练数据集，以及 one-hot 类别编码，过拟合好像是不可避免的.

对此，引入了类别平滑技术作为正则化.

3.标签平滑

标签平滑是引入噪声分布 $u (y | x)$ .

对于数据 $x_{i}, y_{i}$ ，其 groundtruth 标签是：

$p^{'} (y | x_{i}) = (1 - ϵ) p (y | x_{i}) + ϵ u (y | x_{i})$

$p^{'} (y | x_{i}) = {\begin{cases} 1 - ϵ + ϵ u (y | x_{i}) & if y = y_{i} \\ ϵ u (y | x_{i}) & otherwise \end{cases}$

其中， $ϵ \in [0, 1]$ 为权重因子， $\sum_{y = 1}^{K} p^{'} (y | x_{i}) = 1$ .

对应的，损失函数为：

$L^{'} = - \sum_{i = 1}^{n} \sum_{y = 1}^{K} p^{'} (y | x_{i}) l o g q_{θ} (y | x_{i})$

$L^{'} = - \sum_{i = 1}^{n} \sum_{y = 1}^{K} [(1 - ϵ) p (y | x_{i}) + ϵ u (y | x_{i})] l o g q_{θ} (y | x_{i})$

进一步简化损失函数：

$L^{'} = \sum_{i = 1}^{n} {(1 - ϵ) [- \sum_{y = 1}^{K} p (y | x_{i}) l o g q_{θ} (y | x_{i})] + ϵ [- \sum_{y = 1}^{K} u (y | x_{i}) l o g q_{θ} (y | x_{i})]}$