简介
本篇文章来自于:
Deep Unsupervised Learning using Nonequilibrium Thermodynamics,arXiv:1503.03585v8 [cs.LG] 18 Nov 2015
该篇文章为首次提出Deffusion Model的概念。算法的主要目标是构造一个前向传播、扩散的过程,通过这个过程可以将复杂的分布逐渐变为一个简单的分布。
其中第一行是 swiss roll 数据,通过扩散过程,从左到右,逐渐变为一个高斯分布。第二行是训练的模型,从右到左逐步从高斯分布生成原始的数据分布。
Forward Trajectory
数据分布为$q(x^{(0)})$,最终分布$\pi (y)$,其中利用马尔科夫扩散核$T_{\pi}(y|y’;\beta)$,$\beta$为扩散率。
Reverse Trajectory
$p$为逆向使用数据的过程。
Model Probability
但是,事实上逆向轨迹几乎不可能被追踪,因此需要借助前向过程。
训练
目标是为了最小化模型似然估计。
其中公式(16)定义$H_p (x^{T}) = -\int \mathrm{d}x^{(T)}q(x^{(T)})\ln \pi(x^{(T)})$;公式(20)因为这个过程是马尔科夫过程,只与前一个状态有关;公式(21)为贝叶斯公式。经过以上的变换,成功找到下界,任务目标变为: