Wander's Whisper

--'Just do something,give destiny a reason to stir.'

概率论Notes

Wander's avatar

Γ函数\Gamma函数

形式为

0xα1exdx\int_0^\infty x^{\alpha-1}e^{-x}dx

只需要记住一点Γ(α+1)=αΓ(α)\Gamma(\alpha+1)=\alpha\Gamma(\alpha)

多维高斯分布的理解

部分转载自fouryears.eu

考虑一个对称的高斯分布,即 Σ=I{\bf \Sigma} = {\bf I}(单位矩阵)的分布,它当然是一个对称的、圆形的点云。让我们从中抽取一个样本,我们从上可知,该样本中每个点的似然为

Pr(x)exp(12xTx)\Pr({\bf x}) \propto \exp\left(-\frac{1}{2}{\bf x}^T{\bf x}\right)

现在让我们对这些点应用线性变换 A\bf A,即令 y=Ax{\bf y} ={\bf Ax}。我们将得到以下新的点云 y\bf yy\bf y 的分布是什么?只需将 x=A1y{\bf x}={\bf A}^{-1}{\bf y} 代入上式,即可得到:

Pr(y)exp(12(A1y)T(A1y))=exp(12yT(A1)TA1y)=exp(12yT(AAT)1y)\begin{align*} \Pr({\bf y}) &\propto \exp\left(-\frac{1}{2}({\bf A}^{-1}{\bf y})^T({\bf A}^{-1}{\bf y})\right) \\ &= \exp\left(-\frac{1}{2}{\bf y}^T({\bf A}^{-1})^T{\bf A}^{-1}{\bf y}\right) \\ &= \exp\left(-\frac{1}{2}{\bf y}^T({\bf AA}^T)^{-1}{\bf y}\right) \end{align*}

这正是协方差为 Σ=AAT{\bf \Sigma} = {\bf AA}^T 的高斯分布。

这个逻辑是双向的:如果我们有一个协方差为 Σ\bf \Sigma 的高斯分布,我们可以将其视为通过某个 A\bf A 变换对称高斯分布而获得的分布,并且我们得到了 AAT{\bf AA}^T

更一般地,如果我们有任何数据,那么当我们计算其协方差为 Σ\bf\Sigma 时,我们可以说,如果我们的数据是高斯分布的,那么它本可以是通过某个变换 A\bf A 从一个对称云中获得的,而我们只是估计了与该变换相对应的矩阵 AAT{\bf AA}^T

请注意,我们并不知道实际的 A\bf A,而且这在数学上是完全公平的。可以有许多不同的对称高斯变换会产生相同的分布形状。例如,如果 A\bf A 只是一个角度的旋转,那么该变换根本不会影响分布的形状。相应地,对于所有旋转矩阵,都有 AAT=I{\bf AA}^T = {\bf I}。当我们看到一个单位协方差矩阵时,我们并不知道它究竟是“最初对称的”分布,还是“旋转后的对称分布”。我们也不必太在意——这两种情况是相同的。

此时我们还可以思考一下,显然Σ\Sigma的对应最大特征的特征向量方向就是整个点云被拉长的方向,也就是我们在PCA降维时想要的方差最大的方向。

至于前面的系数,为什么要除以一个Σ1\sqrt{|\Sigma^{-1}|},因为这就是AA的行列式的大小,表示从标准点云变换过去的伸缩比。这实际上就是雅可比行列式的线性情况、