交叉熵

衡量随机变量X的不确定性,熵越大表示随机变量的不确定性越大,即混乱程度越大,等概率分布时,熵最大,为1。

随机变量$X$可能的取值$X=\lbrace x_1,x_2,\cdots,x_n \rbrace$,对应的概率为$p(X=x_i)(i=1,2,\cdots,n)$,随机变量$X$的熵定义为

$H(X) = -{\sum_{i}^{n}{p(x_i)\log{p(x_i)}}}$

交叉熵

对一随机事件,其真实概率分布为,从数据中得到的概率分布为,则我们定义,交叉熵为:

相对熵

又称KL散度,描述两个随机分布间距离的度量

$D(p||q)=H(p,q)-H(p)=\sum_{i}^{} p(i)*log\frac{p(i)}{q(i)}$,

它表示2个函数或概率分布的差异性:差异越大则相对熵越大,差异越小则相对熵越小,特别地,若2者相同则熵为0。注意,KL散度的非对称性。

应用

交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。

参考

信息熵,相对熵,交叉熵的理解

知乎:如何通俗的解释交叉熵与相对熵