高斯散布
数学希望:
方差:^2
标准差:
随机变量:x
exp:e为底(后续括号内的为幂次)
一、一维状况 MLE
高斯散布在机器学习中占有举足轻重的作用。在 MLE 办法中:
MLE的连等号是由于:logP(X∣)=log∏i=1Np(xi∣)=∑i=1Nlogp(xi∣)\log P(X \mid \theta)=\log \prod_{i=1}^{N} p\left(x_{i} \mid \theta\right)=\sum_{i=1}^{N} \log p\left(x_{i} \mid \theta\right)
argmax : 比方f(x)中,x便是变量(arg), arg是argument,即自变量, arg max 意思是 使后面式子取到 max值 时的 变量取值
一般地,高斯散布的概率密度函数PDF(probability density function)写为:
带入 MLE 中咱们考虑一维的状况
首要对 \mu 的极值能够得到 :( \mu相对简单)
于是:(其实便是均值,且MLE=\mu_{MLE} = \mu)
其次对 \theta 中的另一个参数 \sigma ,有:
于是:
值得注意的是,上面的推导中,首要对 \mu 求 MLE, 然后运用这个结果求 MLE\sigma_{MLE} ,因而能够预期的是对数据集求希望时 ED[MLE]\mathbb{E}_{\mathcal{D}}[\mu_{MLE}] 是无误差的:
但是当对 MLE\sigma_{MLE} 求 希望的时候由于运用了单个数据集的 MLE\mu_{MLE},因而对一切数据集求希望的时候咱们会发现 MLE\sigma_{MLE} 是 有偏的:
有偏的原因是由于用样本均值MLE\mu_{MLE}替代整体均值,假如本身系统设计时均值是已知的。只用MLE算方差的话,除以n也仍是无偏估计
别的、假如E[]=E[\hat{\mu}] = \mu那么,像这种样子咱们就认为他是无偏的,假如 ≠ 则是无偏的
补充:下述公式中倒数第二行改动,是由于离散型随机变量方差核算公式:(只需未知数套上了一层E,默认便是常数处理了。)
D(X)=E((X−E(X))2)=E(X2)−E2(X)D(X)=E\left((X-E(X))^{2}\right)=E\left(X^{2}\right)-E^{2}(X)
能够理解为当 \mu 取 MLE\mu_{M L E} 就现已确认了一切 xix_{i} 的和等于 NMLEN \mu_{M L E} ,也便是说当 N-1 个 xix_{i} 确认今后,第 N 个 xix_{i} 也就被确认了,所以少了一个”自由度”,因而E[MLE2]=N−1N2E\left[\sigma_{M L E}^{2}\right]=\frac{N-1}{N} \sigma^{2}
所以真实的2\sigma^2为:
得到定论:求得有偏的方差,将样本总数减一即为无偏的方差(有偏的方差 < 无偏的方差) 方差往小的方向估计了,也便是用极大似然估计确实会带来一定的误差,对于高斯散布来说便是估计小了
也很好理解,由于样本是整体的一部分,而方差是一切样本的散布状况,跟着样本的增加,方差会增大
此外,在抽样时,样本落在中间区域的概率大,所以抽样的数据离散程度小于整体,所以抽样方差小,也很好理解
二、多维状况
多维高斯散布表达式为:
\Sigma一般是半正定的, 在本次证明中假定是正定的, 即一切的特征值都是正的,没有 0 。
其间 x,∈Rp,∈Rppx,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p} ,\Sigma 为协方差矩阵,一般来说也是半正定矩阵。这里咱们只考虑正定矩阵。对于咱们高维的高斯散布,未知数只要自变量xx,其余的\mu、\Sigma都能够作为常量处理。首要咱们处理指数上的数字,指数上的数字能够记为 xx 和 \mu 之间的马氏间隔。
- 马氏间隔
(x−)T−1(x−)为马氏间隔(x与之间,当为I时马氏间隔即为欧氏间隔。\sqrt{(x-\mu)^{T}\Sigma ^{-1}(x-\mu)}为马氏间隔(x与\mu之间,当\Sigma为I时马氏间隔即为欧氏间隔。
- 正定矩阵与半正定矩阵
给定一个巨细为 nnn \times n 的实对称矩阵 AA ,若对于恣意长度为 nn 的非零向量 x\boldsymbol{x} ,有 xTAx>0\boldsymbol{x}^{T} A \boldsymbol{x}>0 恒建立,则矩阵 AA 是一个正定矩阵,有 xTAx≥0\boldsymbol{x}^{T} A \boldsymbol{x} \geq 0 恒建立,则矩阵 AA 是一个半正定矩阵。
三、证明高斯散布等高线为”椭圆”
- 协方差矩阵的特征值分化
恣意的NNN \times N实对称矩阵都有NN个线性无关的特征向量。而且这些特征向量都能够正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵\Sigma可被分化成=UUT\Sigma=U\Lambda U^{T}。
将概率密度整理成椭圆方程的方式
上式中yi=(x−)Tuiy_{i}=(x-\mu )^{T}u _{i}能够理解为将xx减去均值进行中心化今后再投影到uiu _{i} (uiu_{i} 是正交矩阵的一个基向量,代表一个坐标轴)方向上,相当于做了一次坐标轴变换。 yiy_{i} 是 x−x-\mu 在特征向量 uiu_{i}上的投影长度,因而上式子便是 \Delta 取不同值时的同心椭圆。
当xx的维度为2即p=2p=2时=y121+y222\Delta =\frac{y_{1}^{2}}{\lambda _{1}}+\frac{y_{2}^{2}}{\lambda _{2}},得到相似椭圆方程的等式,所以也就能够解说为什么其等高线是椭圆形状。二维高斯散布的图画如下所示:
所以跟着xx的取值不断改动,即在维度为2的状况下,椭圆的长轴和短轴的长度也跟着唯一自变量xx不断改动,切面也就不断变大和变小。
四、高斯散布的局限性
- 参数过多 协方差矩阵 pp\Sigma_{p \times p} 中的参数共有 1+2+⋯+p=p(p+1)21+2+\cdots+p=\frac{p(p+1)}{2} 个 ( pp\Sigma_{p \times p} 是对称矩阵(参数个数少一半左右))),因而当 xx 的维度 pp 很大时,高斯散布的参数就会有许多,其核算复杂度为 O(p2)O\left(p^{2}\right)) 。 能够经过假定高斯散布的协方差矩阵为对角矩阵来削减参数,当高斯散布的协方差矩阵为对角矩阵(仅对角线上有参数)时,无需特征值分化,特征向量的方向就会和原坐标轴的方向平行,因而高斯散布的等高线 (同心椭圆) 就 不会歪斜。 别的假如在高斯散布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值悉数相等 (即 1=2=⋯=i \lambda_{1}=\lambda_{2}=\cdots=\lambda_{i} ), 则高斯散布的等高线就会成为一个圆形,而且不会歪斜,称为各向同性。
\Sigma若退化为对角矩阵,那么(yi=(x−)Txi)\left(y_{i}=(x-\mu)^{T} x_{i}\right),即每一个样本x代表它本身,U现已不存在(SVD分化,将U代表旋转,^代表特征值),方向与若xix_{i}坚持方正(而每一个xix_{i}独立同散布)。 ^ 中的i\lambda_{i}均相等,则持有特向同性,退化为圆
- 单个高斯散布是单峰,对有多个峰的数据散布不能得到好的结果,拟合才能有限 解决方案是运用多个高斯散布,比方高斯混合GMM模型。
五、求高斯散布的边际概率与条件概率
- 概述
首要将变量、均值和方差进行区分:
x=(xaxb),其间xa是m维的,xb是n维的。x=\left(\begin{array}{l}x_a \\ x_b\end{array}\right), 其间 x_a 是 m 维的, x_b 是 n 维的。=(ab)=(aaabbabb)\mu=\left(\begin{array}{c} \mu_a \\ \mu_b \end{array}\right) \Sigma=\left(\begin{array}{cc} \Sigma_{a a} & \Sigma_{a b} \\ \Sigma_{b a} & \Sigma_{b b} \end{array}\right)
本部分旨在依据上述已知来求 P(xa),P(xb∣xa),P(xb),P(xa∣xb)P\left(x_a\right), P\left(x_b \mid x_a\right), P\left(x_b\right), P\left(x_a \mid x_b\right) 。 2. 定理 以下界说为推导过程中主要用到的定理,这里只展现定理的内容,不进行证明:
已知x∼N(,),x∈Rpy=Ax+B,y∈Rq定论:y∼N(A+B,AAT)已知 x \sim N(\mu, \Sigma), x \in \mathbb{R}^p\\ y=A x+B, y \in \mathbb{R}^q\\ 定论: y \sim N\left(A \mu+B, A \Sigma A^T\right)
一个简单但不严谨的证明:
E[y]=E[Ax+B]=AE[x]+B=A+BVar[y]=Var[Ax+B]=Var[Ax]+Var[B]=AVar[x]AT+0=AAT\begin{gathered} E[y]=E[A x+B]=A E[x]+B=A \mu+B \\ \operatorname{Var}[y]=\operatorname{Var}[A x+B] \\ =\operatorname{Var}[A x]+\operatorname{Var}[B] \\ =A \operatorname{Var}[x] A^T+0 \\ =A \Sigma A^T \end{gathered}
- 求边际概率 P(xa)P\left(x_a\right)
xa=(Im0n)⏟A(xaxb)⏟xE[xa]=(Im0n)(ab)=aVar[xa]=(Im0n)(aaabbabb)(Im0n)=(aaab)(Im0n)=aa\begin{gathered} x_a=\underbrace{\left(\begin{array}{ll} I_m & 0_n \end{array}\right)}_A \underbrace{\left(\begin{array}{c} x_a \\ x_b \end{array}\right)}_x \\ E\left[x_a\right]=\left(\begin{array}{ll} I_m & 0_n \end{array}\right)\left(\begin{array}{c} \mu_a \\ \mu_b \end{array}\right)=\mu_a \\ \operatorname{Var}\left[x_a\right]=\left(\begin{array}{ll} I_m & 0_n \end{array}\right)\left(\begin{array}{cc} \Sigma_{a a} & \Sigma_{a b} \\ \Sigma_{b a} & \Sigma_{b b} \end{array}\right)\left(\begin{array}{c} I_m \\ 0_n \end{array}\right) \\ =\left(\begin{array}{ll} \Sigma_{a a} & \Sigma_{a b} \end{array}\right)\left(\begin{array}{c} I_m \\ 0_n \end{array}\right)=\Sigma_{a a} \end{gathered}
所以 xa∼N(a,aa)x_a \sim N\left(\mu_a, \Sigma_{a a}\right) ,同理 xb∼N(b,bb)x_b \sim N\left(\mu_b, \Sigma_{b b}\right) 。 4. 求条件概率 P(xb∣xa)P\left(x_b \mid x_a\right)
结构{xb⋅a=xb−baaa−1xab⋅a=b−baaa−1abb⋅a=bb−baaa−1ab(bb⋅a是aa的舒尔补)xb⋅a=(baaa−1In)⏟A(xaxb)⏟xE[xb⋅a]=(−baaa−1In)(ab)=b−baaa−1a=b⋅aVar[xb⋅a]=(−baaa−1In)(aaabbabb)(−aa−1baTIn)=(−baaa−1aa+ba−baaa−1ab+bb)=(0−baaa−1ab+bb)(−aa−1baTIn)=bb−baaa−1ab=bb⋅a\begin{gathered} & \text { 结构 }\left\{\begin{array}{c} x_{b \cdot a}=x_b-\Sigma_{b a} \Sigma_{a a}^{-1} x_a \\ \mu_{b \cdot a}=\mu_b-\Sigma_{b a} \Sigma_{a a}^{-1} \mu_a \\ \Sigma_{b b \cdot a}=\Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b} \end{array}\right. \\ & \text { ( } \Sigma_{b b \cdot a} \text { 是 } \Sigma_{a a} \text { 的舒尔补) } \\ & x_{b \cdot a}=\underbrace{\left(\begin{array}{ll} \Sigma_{b a} \Sigma_{a a}^{-1} & I_n \end{array}\right)}_A \underbrace{\left(\begin{array}{c} x_a \\ x_b \end{array}\right)}_x \\ & E\left[x_{b \cdot a}\right]=\left(\begin{array}{cc} -\Sigma_{b a} \Sigma_{a a}^{-1} & I_n \end{array}\right)\left(\begin{array}{l} \mu_a \\ \mu_b \end{array}\right)=\mu_b-\Sigma_{b a} \Sigma_{a a}^{-1} \mu_a=\mu_{b \cdot a} \\ & \operatorname{Var}\left[x_{b \cdot a}\right]=\left(\begin{array}{cc} -\Sigma_{b a} \Sigma_{a a}^{-1} & I_n \end{array}\right)\left(\begin{array}{cc} \Sigma_{a a} & \Sigma_{a b} \\ \Sigma_{b a} & \Sigma_{b b} \end{array}\right)\left(\begin{array}{c} -\Sigma_{a a}^{-1} \Sigma_{b a}^T \\ I_n \end{array}\right) \\ & =\left(\begin{array}{cc} -\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a a}+\Sigma_{b a} & -\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b}+\Sigma_{b b} \end{array}\right) \\ & =\left(\begin{array}{ll} 0 & -\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b}+\Sigma_{b b} \end{array}\right)\left(\begin{array}{c} -\Sigma_{a a}^{-1} \Sigma_{b a}^T \\ I_n \end{array}\right) \\ & =\Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b} \\ & =\Sigma_{b b \cdot a} \\ & \end{gathered}
现在能够得到 xb⋅a∼N(b⋅a,bb⋅a)x_{b \cdot a} \sim N\left(\mu_{b \cdot a}, \Sigma_{b b \cdot a}\right) 。依据 xbx_b 与 xb⋅ax_{b \cdot a} 的联系能够得到 xb∣xax_b \mid x_a 的散布:
xb=xb⋅a⏟x+baaa−1xa⏟B(在求条件概率P(xb∣xa)时xa对于xb来说能够看做已知,因而上式中baaa−1xa看做常量B)E[xb∣xa]=b⋅a+baaa−1xaVar[xb∣xa]=Var[xb⋅a]=bb⋅ax_b=\underbrace{x_{b \cdot a}}_x+\underbrace{\Sigma_{b a} \Sigma_{a a}^{-1} x_a}_B\\ (在求条件概率 P\left(x_b \mid x_a\right) 时 x_a 对于 x_b 来说能够看做已知, 因而上式中 \Sigma_{b a} \Sigma_{a a}^{-1} x_a 看做常量 B )\\ \begin{gathered} E\left[x_b \mid x_a\right]=\mu_{b \cdot a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_a \\ \operatorname{Var}\left[x_b \mid x_a\right]=\operatorname{Var}\left[x_{b \cdot a}\right]=\Sigma_{b b \cdot a} \end{gathered}\\
因而能够得到 xb∣xa∼N(b⋅a+baaa−1xa,bb⋅a)x_b \mid x_a \sim N\left(\mu_{b \cdot a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_a, \Sigma_{b b \cdot a}\right), 同理能够得到 xa∣xb∼N(a⋅b+abbb−1xb,aa⋅b)x_a \mid x_b \sim N\left(\mu_{a \cdot b}+\Sigma_{a b} \Sigma_{b b}^{-1} x_b, \Sigma_{a a \cdot b}\right) 。
六、求高斯散布的联合概率散布
- 概述
p(x)=N(x∣,−1)p(y∣x)=N(y∣Ax+b,L−1)和L是精度矩阵(precisionmatrix),precisionmatrix=(covariancematrix)T。\begin{gathered} p(x)=N\left(x \mid \mu, \Lambda^{-1}\right) \\ p(y \mid x)=N\left(y \mid A x+b, L^{-1}\right)\\ \Lambda 和 L 是精度矩阵 (precision matrix), precision matrix =(\text { covariance matrix })^T 。\\ \end{gathered}
本部分旨在依据上述已知来求 p(y),p(x∣y)p(y), p(x \mid y) 。
- 求解 p(y)p(y)
由上述已知能够确认 yy 与 xx 的联系为线性高斯模型,\varepsilon是人为界说的噪声,散布也是人为设定。
则 yy 与 xx 符合下述联系:
然后求解 yy 的均值和方差:
则能够得出 y∼N(A+b,L−1+A−1AT)y \sim N\left(A \mu+b, L^{-1}+A \Lambda^{-1} A^T\right)
- 求解 p(x∣y)p(x \mid y)
求解 p(x∣y)p(x \mid y) 需要首要求解 xx 与 yy 的联合散布,然后依据上一部分的公式直接得到 p(x∣y)p(x \mid y) 。
结构z=(xy)∼N([A+b],[−1TL−1+A−1AT])现在需要求解=Cov(x,y)=E[(x−E[x])(y−E[y])T]=E[(x−)(y−A−b)T]=E[(x−)(Ax+b+−A−b)T]=E[(x−)(Ax−A+)T]=E[(x−)(Ax−A)T+(x−)T]=E[(x−)(Ax−A)T]+E[(x−)T](由于x⊥,所以(x−)⊥,所以E[(x−)T]=E[(x−)]E[T])=E[(x−)(Ax−A)T]+E[(x−)]E[T]=E[(x−)(Ax−A)T]+E[(x−)]⋅0=E[(x−)(Ax−A)T]=E[(x−)(x−)TAT]=E[(x−)(x−)T]AT=Var[x]AT=−1AT由此可得z=(xy)∼N([A+b],[−1−1ATA−1L−1+A−1AT])套用上一部分的公式能够得到x∣y∼N(x⋅y+−1AT(L−1+A−1AT)−1y,xx⋅y)结构 z=\left(\begin{array}{l}x \\ y\end{array}\right) \sim N\left(\left[\begin{array}{c}\mu \\ A \mu+b\end{array}\right],\left[\begin{array}{cc}\Lambda^{-1} & \Delta \\ \Delta^T & L^{-1}+A \Lambda^{-1} A^T\end{array}\right]\right)\\ 现在需要求解 \Delta\\ \begin{gathered} \Delta=\operatorname{Cov}(x, y) \\ =E\left[(x-E[x])(y-E[y])^T\right] \\ =E\left[(x-\mu)(y-A \mu-b)^T\right] \\ =E\left[(x-\mu)(A x+b+\varepsilon-A \mu-b)^T\right] \\ =E\left[(x-\mu)(A x-A \mu+\varepsilon)^T\right] \\ =E\left[(x-\mu)(A x-A \mu)^T+(x-\mu) \varepsilon^T\right] \\ =E\left[(x-\mu)(A x-A \mu)^T\right]+E\left[(x-\mu) \varepsilon^T\right]\\ (由于 x \perp \varepsilon, 所以 (x-\mu) \perp \varepsilon, 所以 E\left[(x-\mu) \varepsilon^T\right]=E[(x-\mu)] E\left[\varepsilon^T\right] )\\ =E\left[(x-\mu)(A x-A \mu)^T\right]+E[(x-\mu)] E\left[\varepsilon^T\right] \\ =E\left[(x-\mu)(A x-A \mu)^T\right]+E[(x-\mu)] \cdot 0 \\ =E\left[(x-\mu)(A x-A \mu)^T\right] \\ =E\left[(x-\mu)(x-\mu)^T A^T\right] \\ =E\left[(x-\mu)(x-\mu)^T\right] A^T \\ =\operatorname{Var}[x] A^T \\ =\Lambda^{-1} A^T\\ 由此可得 z=\left(\begin{array}{l}x \\ y\end{array}\right) \sim N\left(\left[\begin{array}{c}\mu \\ A \mu+b\end{array}\right],\left[\begin{array}{cc}\Lambda^{-1} & \Lambda^{-1} A^T \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1} A^T\end{array}\right]\right)\\ 套用上一部分的公式能够得到 x \mid y \sim N\left(\mu_{x \cdot y}+\Lambda^{-1} A^T\left(L^{-1}+A \Lambda^{-1} A^T\right)^{-1} y, \Sigma_{x x \cdot y}\right) \end{gathered}