Γ 函数 \Gamma函数 Γ 函数
形式为
∫ 0 ∞ x α − 1 e − x d x \int_0^\infty x^{\alpha-1}e^{-x}dx ∫ 0 ∞ x α − 1 e − x d x
只需要记住一点Γ ( α + 1 ) = α Γ ( α ) \Gamma(\alpha+1)=\alpha\Gamma(\alpha) Γ ( α + 1 ) = α Γ ( α )
多维高斯分布的理解
部分转载自fouryears.eu
考虑一个对称的高斯分布,即 Σ = I {\bf \Sigma} = {\bf I} Σ = I (单位矩阵)的分布,它当然是一个对称的、圆形的点云。让我们从中抽取一个样本,我们从上可知,该样本中每个点的似然为
Pr ( x ) ∝ exp ( − 1 2 x T x ) \Pr({\bf x}) \propto \exp\left(-\frac{1}{2}{\bf x}^T{\bf x}\right) Pr ( x ) ∝ exp ( − 2 1 x T x )
现在让我们对这些点应用线性变换 A \bf A A ,即令 y = A x {\bf y} ={\bf Ax} y = Ax 。我们将得到以下新的点云 y \bf y y 。y \bf y y 的分布是什么?只需将 x = A − 1 y {\bf x}={\bf A}^{-1}{\bf y} x = A − 1 y 代入上式,即可得到:
Pr ( y ) ∝ exp ( − 1 2 ( A − 1 y ) T ( A − 1 y ) ) = exp ( − 1 2 y T ( A − 1 ) T A − 1 y ) = exp ( − 1 2 y T ( A A T ) − 1 y ) \begin{align*}
\Pr({\bf y}) &\propto \exp\left(-\frac{1}{2}({\bf A}^{-1}{\bf y})^T({\bf A}^{-1}{\bf y})\right) \\ &= \exp\left(-\frac{1}{2}{\bf y}^T({\bf A}^{-1})^T{\bf A}^{-1}{\bf y}\right) \\ &= \exp\left(-\frac{1}{2}{\bf y}^T({\bf AA}^T)^{-1}{\bf y}\right)
\end{align*} Pr ( y ) ∝ exp ( − 2 1 ( A − 1 y ) T ( A − 1 y ) ) = exp ( − 2 1 y T ( A − 1 ) T A − 1 y ) = exp ( − 2 1 y T ( AA T ) − 1 y )
这正是协方差为 Σ = A A T {\bf \Sigma} = {\bf AA}^T Σ = AA T 的高斯分布。
这个逻辑是双向的:如果我们有一个协方差为 Σ \bf \Sigma Σ 的高斯分布,我们可以将其视为通过某个 A \bf A A 变换对称高斯分布而获得的分布,并且我们得到了 A A T {\bf AA}^T AA T 。
更一般地,如果我们有任何数据,那么当我们计算其协方差为 Σ \bf\Sigma Σ 时,我们可以说,如果我们的数据是高斯分布的,那么它本可以是通过某个变换 A \bf A A 从一个对称云中获得的,而我们只是估计了与该变换相对应的矩阵 A A T {\bf AA}^T AA T 。
请注意,我们并不知道实际的 A \bf A A ,而且这在数学上是完全公平的。可以有许多不同的对称高斯变换会产生相同的分布形状。例如,如果 A \bf A A 只是一个角度的旋转,那么该变换根本不会影响分布的形状。相应地,对于所有旋转矩阵,都有 A A T = I {\bf AA}^T = {\bf I} AA T = I 。当我们看到一个单位协方差矩阵时,我们并不知道它究竟是“最初对称的”分布,还是“旋转后的对称分布”。我们也不必太在意——这两种情况是相同的。
此时我们还可以思考一下,显然Σ \Sigma Σ 的对应最大特征的特征向量方向就是整个点云被拉长的方向,也就是我们在PCA降维时想要的方差最大的方向。
至于前面的系数,为什么要除以一个∣ Σ − 1 ∣ \sqrt{|\Sigma^{-1}|} ∣ Σ − 1 ∣ ,因为这就是A A A 的行列式的大小,表示从标准点云变换过去的伸缩比。这实际上就是雅可比行列式的线性情况、