Deep Learning Book 学习笔记(13)

Linear Factor Models

Posted by Wenlong Shen on May 26, 2018

许多深度学习的研究前沿均涉及构建输入的概率模型\(p_{model}(x)\)。原则上说,给定任何其他变量的情况下,这样的模型可以使用概率推断来预测其环境中的任何变量。许多这样的模型还具有潜变量\(h\),进一步地再加上噪声,我们有:

\[x=Wh+b+noise\]

不同的模型,比如因子分析、概率PCA或者是ICA,都是选择了不同形式的噪声以及先验\(p(h)\)。

因子分析和概率PCA

在因子分析中,潜变量的先验是一个方差为单位矩阵的高斯分布,潜变量的作用是捕获不同观测变量之间的依赖关系。

概率PCA则利用了这样一种观察现象:除了一些微小残余的重构误差外,数据中的大多数变化可以由潜变量h描述。

独立成分分析

独立成分分析是最古老的表示学习算法之一,是一种建模线性因子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号通过缩放和叠加可以恢复成观察数据。这些信号是完全独立的,而不是仅仅彼此不相关。

慢特征分析

慢特征分析是使用来自时间信号的信息学习不变特征的线性因子模型。其基本思想是,与场景中起描述作用的单个量度相比,场景的重要特性通常变化得非常缓慢。例如,在计算机视觉中,单个像素值可以非常快速地改变。如果斑马从左到右移动穿过图像并且它的条纹穿过对应的像素时,该像素将迅速从黑色变为白色,并再次恢复成黑色。通过比较,指示斑马是否在图像中的特征将不发生改变,并且描述斑马位置的特征将缓慢地改变。因此,我们可能希望将模型正则化,从而能够学习到那些随时间变化较为缓慢的特征。SFA的一个主要优点是,即使在深度非线性条件下,它依然能够在理论上预测SFA能够学习哪些特征。

稀疏编码

稀疏编码作为一种无监督特征学习和特征提取机制得到了广泛研究。像大多数其他线性因子模型一样,它使用了线性的解码器加上噪声的方式获得一个\(x\)的重构。

PCA的流形解释

线性因子模型,包括PCA和因子分析,可以理解为学习一个流形。我们可以将概率PCA定义为高概率的薄饼状区域,即一个高斯分布,沿着某些轴非常窄,就像薄饼沿着其垂直轴非常平坦,但沿着其他轴是细长的,正如薄饼在其水平轴方向是很宽的一样。

某种程度上说,线性因子模型是最简单的生成模型和学习数据表示的最简单模型。许多模型如线性分类器和线性回归模型可以扩展到深度前馈网络,而这些线性因子模型可以扩展到自编码器网络和深度概率模型,它们可以执行相同任务但具有更强大和更灵活的模型族。