「vae」VAE详细推导

vae

本文是对VAE的loss的详细推导

先上两个图解释下VAE

这里写图片描述

在这两个的基础上，我们可以定义data likelihood:

这里写图片描述

为什么要采用变分

由于MCMC算法的复杂性，对于qϕ(z|x)，如果对每个数据点都要大量采样，在大数据情况下是难以实现的，因此需要找一个近似的方法。变分推理的思想就是寻找一个容易处理的分布使得与目标分布尽量接近来代替它。

上述公式的第二部分就是利用pθ(z)来近似qϕ(z|x), 第三项不好计算，但是我们知道KL散度是大于0的，因此可以得到似然函数的下界。

loss的推导：

DKL(qϕ(z|x)||pθ(z)), pθ(z) ~N(0,1), 下面推导过程将(qϕ(z|x)简化为q

DKL(qϕ(z|x)||pθ(z))=∫q(z)logq(z)p(z)dz

=∫q(z)((logq(z)−logp(z))dz

=∫q(z)(log(12πσ2√e(z−μ)22σ2)−log(12π√e(z)22)

=∫q(z)(log1σ)dz+∫z22q(z)dz−∫(z−μ)22σ2q(z)

观察第一项就是常数和概率密度积分求和

观察最后一项，其实就是求方差，因此可以很快得到答案 12

=(log1σ）+∫12(z−μ+μ)2q(z)dz−12

=(log1σ）+12(∫(z−μ)2q(z)dz+∫μ2q(z)dz+2∫(z−μ)(μ)dz)−12

观察最后一项积分项，是求期望的公式，因此结果为0

综上可以得到结果

DKL(qϕ(z|x)||pθ(z)) =(log1σ）+σ2+μ22−12

另一项 Ez[log(pθ(x|z))], 是关于x的后验概率的对数似然，在VAE 中并不对decoder做太强的假设，一般通过一个神经网络来得到正态分布的均值和方差，因此这一项不能通过解析求出，所以采用采样的方式：

Ez[log(pθ(x|z))]=1L∑Lj=1logpθ(xi|zj)

同时注意这里的z 不是从高斯分布中直接采样，而是使用了一个重参数化的小trick。

这里以伯努利分布为例推导如下：

观测值的似然函数为

L=αxz(1−αz)1−x

logL=xlog(x)+(1−x)log(1−x)

综上可以得到loss 表达，tensorflow中计算如下：

    def _create_loss_optimizer(self):
        ## 1) reconstruction loss: the negative log probability of the input under the reconstructed distribution
        ## E_z (log(p_theta(x|z)))
        reconstr_loss = -tf.reduce_sum(self.x * tf.log(1e-10 + self.x_reconstr_mean) + (1-self.x) * tf.log(1e-10 + 1-self.x_reconstr_mean))

        ## 2) latent loss, which is defined as the kullback Leibler pergence
        ## D = 0.5 \sum(1 + log(\sigma^2) - \mu^2 -\sigma^2)
        latent_loss = -0.5 * tf.reduce_sum(1 + self.z_log_sigma_sq - tf.square(self.z_mean) - tf.exp(self.z_log_sigma_sq), 1)

        self.cost = tf.reduce_mean(reconstr_loss + latent_loss)
        self.optimizer = tf.train.AdadeltaOptimizer(learning_rate=self.learning_rate).Minimize(self.cost)

更多可以参考下以下几篇（其实原文公式推导的已经比较完整了）：

http://blog.csdn.net/jackytintin/article/details/53641885

http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture13.pdf

VAE详细推导

vae

为什么要采用变分

相关阅读

栏目导航

推荐阅读

热门阅读