Jensen’s inequality(琴生不等式)
琴生不等式是概率论和数学分析中的一个不等式,用于实数函数在离散或连续随机变量上的期望值。
Jensen不等式是和凸函数的定义是息息相关的。凸函数任意两点的割线位于函数图形上方,这就是Jensen不等式的两点形式。
首先说明一下凸函数的定义:设函数 f(x) ,对于定义域上任意两个点 (x_1),(x_2) 以及任意实数 (t \in [0,1]),都有f(tx_{1} + (1 – t)x_{2}) \leq t f(x_{1}) + (1 – t) f(x_{2})那么就称函数 (f(x)) 是定义域上的凸函数,同时该函数可推广到n维实数空间中 。注意:中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的,例如同济大学高等数学教材对函数的凹凸性定义,碰到的时候应该以教材中的那些定义为准。
在概率论的上下文中,它通常以以下形式表示:如果X是随机变量,φ 是凸函数,则
\varphi(\mathbb{E}[X]) \leq \mathbb{E}[\varphi(X)]
比如随机变量 Y,则有:E\left(\frac{1}{Y}\right) \geq \frac{1}{E(Y)}这里的 \varphi(x)=\frac{1}{x},显然是凸函数;两独立的随机变量 X,Y,则:E(XY)=E(X)E\left(\frac{1}{Y}\right) \geq \frac{E(X)}{E(Y)}
下面运用数学归纳法来证明琴生不等式证明: 当 n = 1, n = 2 时,由凸函数的性质,这是显然成立的当 n = k 时,假设 f(\sum_{i = 1}^{k} \alpha_i x_i) \leq \sum_{i = 1}^{k} \alpha_i f(x_i) 成立,其中 \sum_{i = 1}^{k} \alpha_i = 1当 n = k + 1 时,设 \sum_{i = 1}^{k + 1} \lambda_i = 1,取 \alpha_i = \frac{\lambda_i}{1 – \lambda_{k + 1}},则有 \sum_{i = 1}^{k} \alpha_i = 1则
f(\lambda_1 x_1 + \lambda_2 x_2 + \cdots + \lambda_{k + 1} x_{k + 1})
=f\left[(1 – \lambda_{k + 1})\left(\frac{\lambda_1 x_1 + \cdots + \lambda_k x_k}{1 – \lambda_{k + 1}}\right) + \lambda_{k + 1} x_{k + 1}\right]
(两点的jenson不等式)
\leq(1 – \lambda_{k + 1})f(\alpha_1 x_1 + \cdots + \alpha_k x_k) + \lambda_{k + 1}f(x_{k + 1})
(应用n=k的情况)
\leq\lambda_1 f(x_1) + \cdots + \lambda_k f(x_k) + \lambda_{k + 1} f(x_{k + 1})
= \sum_{i = 1}^{k + 1} \lambda_i f(x_i)
以上我们便证明了琴生不等式。
经典应用
Jensen不等式可用于推导许多其他经典不等式,通常应用于指数函数、对数函数或幂函数。
算术平均数、调和平均数和几何平均数。对于取值为正实数的X,我们有:
E[X] \geqslant \exp(E[\log(X)]) 以及 E[X] \geqslant \frac{1}{E[\frac{1}{X}]}
杨氏(Young)不等式。对于(p,q>1) 且满足1/p +1/q = 1,以及两个非负实数(x,y),根据詹森不等式,我们有:
\log(\frac{1}{p}x^p + \frac{1}{q}y^q) \geqslant \frac{1}{p}\log(x^p) + \frac{1}{q}\log(y^q) = \log(xy)
由此得到杨氏不等式:xy \leqslant \frac{1}{p}x^p + \frac{1}{q}y^q
利用log这个凹函数,不等号方向改变一下就可以证明。
赫尔德(Hölder)不等式。对于任意正数(x_1, \ldots, x_n, y_1, \ldots, y_n),我们可以写出:
\sum_{i = 1}^{n}x_iy_i = \sum_{j = 1}^{n}y_j^q \cdot \frac{\sum_{i = 1}^{n}x_iy_i^{1 – q}y_i^q}{\sum_{j = 1}^{n}y_j^q} \leqslant \sum_{j = 1}^{n}y_j^q \cdot \left(\frac{\sum_{i = 1}^{n}(x_iy_i^{1 – q})^p y_i^q}{\sum_{j = 1}^{n}y_j^q}\right)^{\frac{1}{p}}
由此得到赫尔德不等式((p) 和 (q) 之间的关系与上述相同):
\sum_{i = 1}^{n}x_iy_i \leqslant \left(\sum_{j = 1}^{n}y_j^q\right)^{\frac{1}{q}}\left(\sum_{j = 1}^{n}x_j^p\right)^{\frac{1}{p}}
这里把yi^q当做xi*yi^(1-q)的权重,\frac{\sum_{i = 1}^{n}x_iy_i^{1 – q}y_i^q}{\sum_{j = 1}^{n}y_j^q}即函数值的均值,设\varphi(t)=t^{\frac{1}{p}},把(x_iy_i^{1 – q})^p当做公式中的t自变量,再应用凹函数的jenson不等式,即可得第一行的不等式,再将最后的式子进行恒等变形,就得证。