你所在的位置: 首页 > 正文

潜变量模型:探索数据中隐藏的结构

2019-08-12 点击:571

了解真实数据的基础结构是机器学习中最引人注目的任务之一。但随着深度代模型的出现,研究人员和从业者可以通过强大的方式解锁它。

b05d852f5601352156bacf585e802586.jpeg

实际数据通常很复杂且尺寸很高。传统的数据分析方法在大多数情况下都是无效的,只能模拟非常简单的数据分布。今天,我们可以使用机器学习模型直接学习数据结构。

最常见的机器学习方法是我们要求模型学习从输入变量到输出变量的映射,例如图像x到标签y。

然而,标记的数据是昂贵的并且易于由人类注释器引起错误或偏差。监督模型只能从训练数据的质量中推广其映射函数。为了测试它是否是使用相同分布的验证集的良好总结,它将具有相同的错误。使用这些模型可以执行分类或回归任务,但我们无法理解数据的实际元素组织。

通过概率建模和深度学习的结合,最近取得了进展。

生成的模型应该能够找到底层结构,例如有趣的模式,聚类,统计相关性和数据的因果结构,并生成类似的数据。

目前,该领域中的一个众所周知的模型是生成对抗网络(GAN),其能够进行数据学习分发和生成。该类的另一个模型称为变分自动编码器(VAE),它也用于复杂高维分布的无监督学习,并将成为本文的重点。

一般而言,无监督学习比监督学习困难得多,因为这些模型不必预测给定输入的标签或值,但必须学习数据分布本身的隐藏结构。本文介绍如何实现此概念,重点关注静态数据,例如没有顺序性质的图像。学习顺序数据的基础设施是一个更难的问题。

在第一部分中,我们将定义潜变量模型。在第二部分中,我们将看到如何使用深度神经网络来学习它们的参数。我尽量保持一切尽可能直观,但是一些先前的概率论和深度学习知识肯定是有帮助的。

潜变量模型

机器学习的核心问题是学习复杂的概率分布p(x),其中仅导出一组有限的高维数据点x。例如,为了学习猫图像的概率分布,我们需要定义一个分布,模拟构成每个图像的所有像素之间的复杂相关性。直接对此分布进行建模是一项具有挑战性的任务,即使在有限的时间内也不可行。

这不称为直接建模p(x),而是称为似然。就概率而言,z可以被解释为连续随机变量。对于猫图像的示例,z可以包含猫类型,其颜色或形状的隐藏表示。

使用z,我们可以在潜在变量上进一步引入先验分布p(z)来计算观测变量和潜在变量的联合分布:

182810959c5c69c2d76fb8da8982c169.jpeg

公式1:观测值和潜在变量的联合分布

这种联合分布允许我们以更易于管理的方式表达复杂分布p(x)。其组件p(x | z)和p(z)通常更容易定义。

为了获得数据分布p(x),我们需要边缘化潜在变量

ee6ea5b1f26afcc1be1f24eb9db3c897.jpeg

公式2:边数据分布p(x)

另外,使用贝叶斯定理,我们可以计算后验分布P(?| X):

244d9f2d608e1f4fd1934d0c33e17b4a.jpeg

等式3:后验分布p(z | x)

后验分布允许我们根据观察结果推断潜在变量。注意,等式(2)中的积分对于我们处理的大多数数据没有解析解,并且我们必须应用一些方法来推断等式(3)中的后验,这将在下面解释。

为什么我们必须做这整个练习并引入潜在的变量?优点是具有潜在变量的模型可以表达创建数据的过程(至少这是我们的希望)。这称为构建模型。通常,这意味着如果我们想要生成新的数据点,我们首先需要在样本z分布p(x | z)中获得新的观察x。在这样做时,我们还可以评估模型是否为数据分布p(x)提供了良好的近似。

根据潜变量模型,包含潜在变量的数学模型。这些潜在变量的大小远低于观察到的输入向量。这产生了数据的压缩表示。您可以将潜在变量视为瓶颈,通过该瓶颈生成数据所需的所有信息都必须通过。我们知道高维数据(例如真实世界数据)位于嵌入在这个高维空间中的低维流形上。这证明了较小尺寸的潜在空间。

后验推论

后验分布p(z | x)是概率推理的关键组成部分,它在观察新数据点后更新了我们对潜在变量的感知。然而,现实世界数据的后验通常很难处理,因为它们不是等式(2)中积分的解析解,它出现在等式(3)的分母中。有两种方法可以估算这种分布。一种叫做采样技术。然而,这些方法在计算上是昂贵的并且不能很好地扩展到大数据集。第二种方法是确定性近似技术。在这些技术中,存在用于VAE的所谓的(VI)[4]。注意,这种方法的缺点是即使在无限的计算时间内它们也不能产生准确的结果。

VI的一般思想是从可管理的分布族(例如,多元高斯分布)中取近似q(z),然后使近似尽可能接近真实的后验p(z | x)。这通常通过最小化两个分布之间的Kullback-Leibler(KL)偏差来完成,定义为

75e0dce28cec0c2eed778fd2c306dd5e.jpeg

公式4:KL分歧

这减少了优化问题的推断。 q(z)和p(z | x)越相似,KL发散越小。请注意,此数字不是数学距离,因为如果我们交换分布,则它不是对称的。此外,在我们的情况下交换分布意味着我们需要期望p(z | x),这被认为是难以处理的。

现在,等式(4)仍然具有在对数内的分子中难以处理的后测试。使用(3)我们可以将(4)重写为:

0b8df4add05f76b4c11d70051b837afc.jpeg

c7dd018202de0c2ef6427395131e075d.jpeg

证据下限(ELBO)

边缘似然log p(x)可以取出期望值,因为它不依赖于z。数量F(q)是所谓的Evidence Lower BOund(ELBO)。 KL总是≥0,因此它代表证据log p(x)的下限。 ELBO越接近边际似然,变分近似将越接近真实的后验分布。因此,复杂的推理问题被简化为更简单的优化问题。

变分自动编码器

我们还没有提到它,但是可能性和先验属于依赖于某些未知参数的分布族。为了更清楚,请看一下等式(1)的参数的联合分布:

0c996bb192a252a6d0a25cb059ca4fc8.jpeg

参数联合分布

Theta表示可以使用深度神经网络(或传统方法,例如算法)学习的模型的未知参数。

VAE使用这种深度神经网络来参数化潜变量模型的概率分布。此外,它提供了一种有效的近似推理过程,可以扩展到大型数据集。它由生成模型(潜变量模型),推理网络(变分近似)以及如何学习VAE参数来定义。

生成的模型由等式(6)给出,其中z是具有K维度的连续潜变量。它的先验通常是高斯分布,零均值和相同的协方差矩阵,

5f91e495f268fdf438577140946cc68c.jpeg

具有零均值和同一性协方差的高斯先验

该似然被称为解码器,其通常是连续数据的高斯分布,其参数θ通过使潜状态z通过深度神经网络来计算。然后可能性如下,

b7751a53703f2ad79faa7ac840d17520.jpeg

概率是连续的高斯分布

均值和方差由两个深度神经网络参数化,其中输出向量具有维度D,即观察到x的维数。参数θ是解码器神经网络的权重和偏差。

推理网络称为编码器,允许我们计算后验近似的参数。不是为每个数据点设置一组参数,而是在所有数据点之间共享变分参数phi。同样,在VAE设置中,我们使用深度神经网络,使用输入数据点并输出相应的高斯变分近似均值和区域协方差矩阵,

b0857655e4e923a7c2a7b3758661cb4e.jpeg

VAE的后验近似

共享变化参数phi是编码器神经网络的权重和偏差。

参数学习和VAE的目标函数

如上所述,边缘分布p(x)(由θ参数化)在许多情况下难以处理并且需要近似。使用ELBO可以实现近似。为了清楚地说明ELBO依赖于theta的某些参数,我们可以将其重写为

0b9da1cc2cc0c78d457652d3438ceee5.jpeg

公式10:ELBO由theta

参数化

为了学习参数,我们可以使用期望最大化(EM)使ELBO相对于其参数最大化。对于VAE设置,最大化q超过参数phi。因此,我们可以使用两个术语来分解ELBO:

1086c735f65c17a6c77eb73d0e310e7e.jpeg

目标功能。左边的术语表示重建损失,右边的术语表示归一化损失,公式(11)

F的第一项是重建损失,它鼓励可能性和推理网络准确地重建数据。第二个术语是正则化损失,并且惩罚与前一个相差太远的后验近似。具有参数phi和theta的两个神经网络可以通过具有反向传播的梯度下降来有效地计算。此外,参数是联合更新的,而不是像在EM中那样迭代更新。

结论

在本文中,我介绍了潜变量模型的概念及其与深度神经网络的扩展,通过参数化来定义潜变量模型的概率分布。在这里,我们注意到变分推理用于后验分布p(z | x)的近似,后者由变分自动编码器(生成模型)使用。 VAE的真正优势在于它们可以以完全无监督的方式进行训练,并学习空间的潜力来捕捉数据的自然特征。

如果我们可以将复杂的高维数据嵌入到潜在的空间中,我们就可以生成与原始数据非常相似的新数据。我们可以假设我们的模型捕获了数据的主要特征。这可以为研究人员和从业人员提供大量有用信息,以研究感兴趣的数据并识别模式,相关性甚至因果结构。

深圳新闻网 版权所有© www.sucdutedu.org 技术支持:深圳新闻网 | 网站地图