熵、交叉熵、KL散度
KL散度
D_{KL}(P||Q)=\sum_{x}P(x)log[\frac{P(x)}{Q(x)}]
上面的便是 KL 散度的公式,我们仔细分析一下这个公式,可以发现 KL 散度 = 交叉熵 – 熵。
很显然,KL散度是不对称的,D_{KL}(P||Q) != D_{KL}(Q||P)
我们令 P 是实际的概率分布,Q 是 用来拟合的概率分布。
熵
熵:entropy = -\sum_{x}P(x)log[P(x)]
log(xy)=log(x) + log(y)
熵可以用来衡量一个事件的信息量
-log[P(x)]
交叉熵
很明显,交叉熵可以用来衡量两个概率分布之间的差异性。
理解
我们如果用 Q(x)来拟合真实的 概率分布 P(x),那么
实际的信息量:{-0.2log(0.2)-0.8 log(0.8)}
假设我们把 Q(x)当作真实的概率分布,那么我们估计出来的信息量为:
{-0.2log(0.4)-0.8log(0.6)}
吉布斯不等式
{\sum_{x}P(x)logP(x)>=\sum_{x}P(x)logQ(x)}