DBIM 论文精读(上)

本文最后更新于 2026年3月3日 晚上

去噪扩散桥模型(DDBMs)作为扩散模型的强大变体,能够在任意给定的两个配对端点分布之间进行插值。尽管在图像翻译等任务中表现优异,DDBMs需要耗费大量计算资源的采样过程——涉及通过数百次网络评估来模拟(随机)微分方程。

本研究基于扩散模型的成熟方法,首次实现了无需额外训练的DDBMs快速采样。我们通过定义在离散化采样时间步上的一类非马尔可夫扩散桥来推广DDBMs,这类模型具有相同的边缘分布和训练目标,能产生从随机到确定性的生成过程,并最终形成扩散桥隐式模型(DBIMs)。DBIMs不仅比传统DDBMs采样器快达25倍,还催生了一种新颖、简洁且富有启发性的常微分方程(ODE)形式,为高阶数值求解器提供了理论支持。更值得注意的是,DBIMs通过在初始采样步骤引入引导噪声,以独特方式保持生成多样性,从而在图像平移任务中实现精准编码、重建和语义插值。

引言

扩散模型(Song 等人,2021c;Sohl-Dickstein 等人,2015;Ho 等人,2020)是一类强大的生成模型,具有高质量生成能力、稳定的训练过程以及对高维度数据的可扩展性。它们在多个领域持续取得最先进的性能,包括图像合成(Dhariwal 和 Nichol,2021;Karras 等人,2022)、语音和视频生成(Chen 等人,2021a;Ho 等人,2022)、可控图像编辑(Nichol 等人,2022;Ramesh 等人,2022;Rombach 等人,2022;Meng 等人,2022)、密度估计(Song 等人,2021b;Kingma 等人,2021;Lu 等人,2022a;Zheng 等人,2023b)以及逆问题求解(Chung 等人,2022;Kawar 等人,2022)。它们还作为现代文本到图像(Rombach 等人,2022)和文本到视频(Gupta 等人,2023;Bao 等人,2024)合成系统的核心组件,开启了人工智能生成内容的时代。

然而,扩散模型并不适合解决诸如图像翻译或修复之类的任务——在这些任务中,需要基于配对的端点来建模两个任意概率分布之间的迁移。扩散模型源于一个在数据和噪声之间逐渐转换的随机过程,其先验分布通常局限于“非信息性”的随机高斯噪声。要将扩散模型应用于存在更具信息性先验的场景(如图像翻译/修复),需要修改生成流程(Meng 等人,2022;Su 等人,2022)或在采样过程中添加额外的引导项(Chung 等人,2022;Kawar 等人,2022)。一方面,这些方法在训练时与任务无关,在推理时可适应多种任务;另一方面,尽管近年来在加速逆问题求解方面取得了进展(Liu 等人,2023a;Pandey 等人,2024),但与基于训练的方法相比,它们不可避免地要么性能欠佳,要么推理过程缓慢且资源密集。在有配对训练数据可用且快速推理至关重要的特定任务场景中,定制化的扩散模型变体变得必不可少。

近年来,去噪扩散桥模型(DDBMs)(Zhou 等人,2023)已成为解决分布转换任务的一种可扩展且前景广阔的方法。通过考虑扩散桥的逆时过程(即以来给定端点为条件的扩散过程),DDBMs 提供了一个用于分布转换的通用框架。尽管 DDBMs 在图像翻译任务中表现出色,能生成高质量且高保真的结果,但其采样过程需要模拟与逆时过程对应的(随机)微分方程。即使引入了混合采样器,要为高分辨率图像生成高保真结果仍需要超过 100 步。相比之下,扩散模型的高效采样器(Song 等人,2021a;Zhang 和 Chen,2022;Lu 等人,2022b)只需约 10 步即可生成合理的样本,因此 DDBMs 相对落后,亟需开发高效的变体。

本研究首次开创性地致力于实现 DDBMs 的加速采样。受扩散模型中成熟方法的启发,无需额外训练的扩散采样加速方法主要侧重于降低随机性(例如,著名的去噪扩散隐式模型 DDIMs)和利用高阶信息(例如,高阶求解器)。我们提出了扩散桥隐式模型(DBIMs),该方法在扩散桥框架内同时探索了这两个方面。首先,我们在离散时间步上研究了 DDBMs 的连续时间正向过程,并将其推广为一系列由方差参数控制的非马尔可夫扩散桥,同时保持与 DDBMs 相同的边际分布和训练目标。其次,诱导的逆生成过程对应于不同随机性程度的采样过程,包括确定性过程。因此,DBIMs 可被视为 DDIMs 的桥接对应物和扩展。此外,在连续时间极限下,DBIMs 可以诱导出一种新颖的常微分方程(ODE),该方程与 DDBMs 中的概率流 ODE(PF-ODE)相关,但形式更简单且效率显著更高。这种诱导的 ODE 还有助于开发新型高阶数值扩散桥求解器,以实现更快的收敛。

我们通过将 DBIMs 应用于图像翻译和修复任务,证明了其优越性——与 DDBMs 相比,它们的采样速度最高可达 25 倍,并且在具有挑战性的高分辨率数据集上实现了最先进的性能。与传统的扩散采样不同,DBIMs 的初始步骤强制引入带有启动噪声的随机性,以避免因桥接的固定起点而产生的奇异性问题。通过将启动噪声视为潜变量,DBIMs 在保持典型生成模型的生成多样性的同时,能够在数据空间中实现忠实的编码、重建以及语义上有意义的插值。

图 1:在 ImageNet 256×256 数据集(Deng 等人,2009)上的修复结果,其中 DDBM(Zhou 等人,2023)使用 100 次函数评估(NFE),而我们的 DBIM 仅使用 10 次 NFE。(a)条件;(b)DDBM(NFE=100,FID=6.46);(c)DBIM(η=0,NFE=10,FID=4.51);(d)DBIM(3 阶,NFE=10,FID=4.34)

预备知识

2.1 扩散模型

给定一个d维数据分布 q0(x0)q_0(x_0),扩散模型(Song等人,2021c;Sohl-Dickstein等人,2015;Ho等人,2020)通过定义一个从 x0q0x_0 \sim q_0 开始的前向随机微分方程(SDE)来构建扩散过程:

dxt=f(t)xtdt+g(t)dwt(1)dx_t = f(t)x_t dt + g(t)dw_t \quad (1)

其中,t[0,T]t \in [0, T]TT 为某个有限时间范围),f,g:[0,T]Rf, g: [0, T] \to \mathbb{R}是标量值的漂移项和扩散项,wtRdw_t \in \mathbb{R}^d 是标准维纳过程。作为线性SDE,通过伊藤公式(Itô,1951),前向过程具有解析的高斯转移核:

qt0(xtx0)=N(αtx0,σt2I)(2)q_{t|0}(x_t | x_0) = \mathcal{N}(\alpha_t x_0, \sigma_t^2 I) \quad (2)

其中,αt\alpha_tσt\sigma_t 被称为噪声调度,满足 f(t)=dlogαtdtf(t) = \frac{d \log \alpha_t}{dt}g2(t)=dσt2dt2dlogαtdtσt2g^2(t) = \frac{d \sigma_t^2}{dt} - 2 \frac{d \log \alpha_t}{dt} \sigma_t^2(Kingma等人,2021)。前向SDE伴随有一系列关于 {xt}t=0T\{x_t\}_{t=0}^T 的边缘分布 {qt}t=0T\{q_t\}_{t=0}^T,且 ffgg 经过合理设计,使得终端分布近似为纯高斯分布,即 qT(xT)N(0,σT2I)q_T(x_T) \approx \mathcal{N}(0, \sigma_T^2 I)

为了从数据分布 q0(x0)q_0(x_0) 中采样,我们可以从 t=Tt=Tt=0t=0 求解反向SDE或概率流ODE(Song等人,2021c):

dxt=[f(t)xtg2(t)xtlogqt(xt)]dt+g(t)dwˉt,(3)dx_t = \left[f(t)x_t - g^2(t) \nabla_{x_t} \log q_t(x_t)\right]dt + g(t)d\bar{w}_t, \quad (3)

dxt=[f(t)xt12g2(t)xtlogqt(xt)]dt.(4)dx_t = \left[f(t)x_t - \frac{1}{2}g^2(t) \nabla_{x_t} \log q_t(x_t)\right]dt. \quad (4)

它们与前向SDE共享相同的边缘分布 {qt}t=0T\{q_t\}_{t=0}^T,其中 wˉt\bar{w}_t 是反向时间维纳过程,唯一的未知项 xtlogqt(xt)\nabla_{x_t} \log q_t(x_t) 是边缘密度 qtq_t 的分数函数。通过去噪分数匹配(DSM)(Vincent,2011),可以参数化一个分数预测网络 sθ(xt,t)s_\theta(x_t, t),使其最小化:

EtEx0q0(x0)Extqt0(xtx0)[w(t)sθ(xt,t)xtlogqt0(xtx0)22]\mathbb{E}_t \mathbb{E}_{x_0 \sim q_0(x_0)} \mathbb{E}_{x_t \sim q_{t|0}(x_t | x_0)} \left[ w(t) \| s_\theta(x_t, t) - \nabla_{x_t} \log q_{t|0}(x_t | x_0) \|_2^2 \right]

其中,qt0q_{t|0} 是解析的前向转移核,w(t)w(t) 是正加权函数。将 sθs_\theta 代入反向SDE和概率流ODE中,可以得到参数化的扩散SDE和扩散ODE。目前已有多种专门用于扩散SDE或ODE的求解器(Song等人,2021a;Zhang和Chen,2022;Lu等人,2022b;Gonzalez等人,2023)。

2.2 去噪扩散桥模型

去噪扩散桥模型(DDBMs)(Zhou等人,2023)考虑通过杜布h变换(Doob和Doob,1984),驱动式(1)中的扩散过程以概率1到达特定点 yRdy \in \mathbb{R}^d

dxt=f(t)xtdt+g2(t)xtlogq(xT=yxt)+g(t)dwt,x0q0=pdata,xT=y.(5)dx_t = f(t)x_t dt + g^2(t) \nabla_{x_t} \log q(x_T = y | x_t) + g(t)dw_t, \quad x_0 \sim q_0 = p_{\text{data}}, \quad x_T = y. \quad (5)

与扩散模型中端点局限于高斯噪声不同,这里的端点 yy 可以选择为信息丰富的先验(例如图像恢复任务中的退化图像)。给定起始点 x0x_0,式(5)中的过程也具有解析的前向转移核:

q(xtx0,xT)=N(atxT+btx0,ct2I),q(x_t | x_0, x_T) = \mathcal{N}(a_t x_T + b_t x_0, c_t^2 I),

at=αtαTSNRTSNRt,bt=αt(1SNRTSNRt),ct2=σt2(1SNRTSNRt)(6)a_t = \frac{\alpha_t}{\alpha_T} \frac{\text{SNR}_T}{\text{SNR}_t}, \quad b_t = \alpha_t \left(1 - \frac{\text{SNR}_T}{\text{SNR}_t}\right), \quad c_t^2 = \sigma_t^2 \left(1 - \frac{\text{SNR}_T}{\text{SNR}_t}\right) \quad (6)

这形成了一个扩散桥,其中 SNRt=αt2/σt2\text{SNR}_t = \alpha_t^2 / \sigma_t^2 是时间 tt 的信噪比。DDBMs表明,式(5)的前向过程与从 xT=yx_T = y 开始的反向SDE和概率流ODE相关联:

dxt=[f(t)xtg2(t)(xtlogq(xtxT=y)xtlogqTt(xT=yxt))]dt+g(t)dwˉt,(7)dx_t = \left[ f(t)x_t - g^2(t) \left( \nabla_{x_t} \log q(x_t | x_T = y) - \nabla_{x_t} \log q_{T|t}(x_T = y | x_t) \right) \right] dt + g(t)d\bar{w}_t, \quad (7)

dxt=[f(t)xtg2(t)(12xtlogq(xtxT=y)xtlogqTt(xT=yxt))]dt.(8)dx_t = \left[ f(t)x_t - g^2(t) \left( \frac{1}{2} \nabla_{x_t} \log q(x_t | x_T = y) - \nabla_{x_t} \log q_{T|t}(x_T = y | x_t) \right) \right] dt. \quad (8)

它们与前向过程共享相同的边缘分布 {q(xtxT=y)}t=0T\{q(x_t | x_T = y)\}_{t=0}^T,其中 wˉt\bar{w}_t 是反向时间维纳过程,qTtq_{T|t} 与式(2)类似是解析已知的,唯一的未知项 xtlogq(xtxT=y)\nabla_{x_t} \log q(x_t | x_T = y) 是桥分数函数。去噪桥分数匹配(DBSM)被提出用于通过参数化网络 sθ(xt,t,y)s_\theta(x_t, t, y)学习未知的分数项 q(xtxT=y)q(x_t | x_T = y),通过最小化:

Lw(θ)=EtE(x0,y)pdata(x0,y)Extq(xtx0,xT=y)[w(t)sθ(xt,t,y)xtlogq(xtx0,xT=y)22](9)\mathcal{L}_w(\theta) = \mathbb{E}_t \mathbb{E}_{(x_0, y) \sim p_{\text{data}}(x_0, y)} \mathbb{E}_{x_t \sim q(x_t | x_0, x_T = y)} \left[ w(t) \| s_\theta(x_t, t, y) - \nabla_{x_t} \log q(x_t | x_0, x_T = y) \|_2^2 \right] \quad (9)

其中,q(xtx0,xT=y)q(x_t | x_0, x_T = y) 是式(6)中的前向转移核, w(t)w(t) 是正加权函数。为了从式(7)和式(8)的扩散桥中采样,DDBMs借鉴扩散模型中的Heun采样器(Karras等人,2022),提出了一种高阶混合采样器,通过交替模拟ODE和SDE步骤来提高样本质量。然而,这种采样器并非专门针对扩散桥设计,在开发高效扩散采样器方面缺乏理论见解。

3 通过非马尔可夫扩散桥构建生成模型

我们首先在一组用于反向采样的离散时间步 0=t0<t1<<tN1<tN=T0 = t_0 < t_1 < \cdots < t_{N-1} < t_N = T 上考察扩散桥的前向过程。由于桥分数 xtlogq(xtxT)\nabla_{x_t} \log q(x_t|x_T) 仅依赖于边缘分布 {q(xtnxT)}n=0N1\{q(x_{t_n}|x_T)\}_{n=0}^{N-1},因此我们可以构建替代概率模型,这些模型能生成新的采样过程,同时复用已学习的桥分数 sθ(xt,t,xT)s_\theta(x_t, t, x_T),只要它们在 NN 个边缘分布 {q(xtnxT)}n=0N1\{q(x_{t_n}|x_T)\}_{n=0}^{N-1} 上保持一致即可。

3.1 作为前向过程的非马尔可夫扩散桥

我们考虑一族由方差参数 ρRN1\rho \in \mathbb{R}^{N-1} 控制的概率分布 q(ρ)(xt0:N1xT)q^{(\rho)}(x_{t_0:N-1}|x_T)

q(ρ)(xt0:N1xT)=q0(xt0)n=1N1q(ρ)(xtnx0,xtn+1,xT)(10)q^{(\rho)}(x_{t_0:N-1}|x_T) = q_0(x_{t_0}) \prod_{n=1}^{N-1} q^{(\rho)}(x_{t_n}|x_0, x_{t_{n+1}}, x_T) \tag{10}

其中,q0q_000 时刻处的数据分布,且对于 1nN11 \leq n \leq N-1

q(ρ)(xtnx0,xtn+1,xT)=N(atnxT+btnx0+ctn2ρn2xtn+1atn+1xTbtn+1x0ctn+1,ρn2I)(11)q^{(\rho)}(x_{t_n}|x_0, x_{t_{n+1}}, x_T) = \mathcal{N}\left(a_{t_n} x_T + b_{t_n} x_0 + \sqrt{c_{t_n}^2 - \rho_n^2} \cdot \frac{x_{t_{n+1}} - a_{t_{n+1}} x_T - b_{t_{n+1}} x_0}{c_{t_{n+1}}}, \rho_n^2 I\right) \tag{11}

这里,ρn\rho_nρ\rho 的第 nn 个元素,满足 ρN1=ctN1\rho_{N-1} = c_{t_{N-1}}ata_tbtb_tctc_t 是与噪声调度相关的项,如 DDBM 中所定义。

直观而言,这一构造在降低桥的方差(噪声水平)的同时,融入了来自上一步的额外噪声成分。通过这种构造,我们可证明 q(ρ)q^{(\rho)} 与 DDBM 中的前向过程 qq 在边缘分布上保持一致。

其中ρn表示ρ的第n个元素,满足ρN−1 = ctN−1的条件,而at、bt、ct是与噪声调度相关的参数,如原始扩散桥方程(公式(6))所定义。

直观来看,这一过程在融入上一步骤额外噪音成分的同时,降低了桥梁的方差(噪声水平)。在此构建下,我们可以证明q(ρ)保持了与原始前向过程q(由公式(5)控制)在边缘分布上的一致性。

<span style="color:red;">命题1(边缘分布的保持性)对于 0nN10 \leq n \leq N-1,有:

q(ρ)(xtnxT)=q(xtnxT)q^{(\rho)}(x_{t_n}|x_T) = q(x_{t_n}|x_T)

<a href="#eq:10">(10)</a>q(ρ)q^{(\rho)} 表示推断过程。前向过程 q(ρ)(xtn+1x0,xtn,xT)q^{(\rho)}(x_{t_{n+1}}|x_0, x_{t_n}, x_T) 可通过 Bayes 公式推导得到。由于 q(ρ)q^{(\rho)} 中的 xtn+1x_{t_{n+1}} 可同时依赖于 xtnx_{t_n}x0x_0,我们称之为非马尔可夫扩散桥 (non-Markovian diffusion bridges);与之相对,马尔可夫扩散桥(如布朗桥、DDBM中前向SDE所定义的扩散桥)应满足 q(xtn+1x0,xtn,xT)=q(xtn+1xtn,xT)q(x_{t_{n+1}}|x_0, x_{t_n}, x_T) = q(x_{t_{n+1}}|x_{t_n}, x_T)

3.2 反向生成过程与等价训练目标

通过将式(10)中未知的 x0x_0 替换为数据预测器 xθ(xt,t,xT)x_\theta(x_t, t, x_T),式(10)可自然转化为参数化且可学习的生成模型。直观而言,根据式(6),扩散桥上的 xtx_txTx_Tx0x_0 和一些随机高斯噪声的加权混合,其中权重 ata_tbtb_tctc_t 由时间步 tt 决定。网络 xθx_\theta 的训练目标是在给定 xtx_txTx_Ttt 的情况下恢复干净数据 x0x_0

生成过程定义

具体而言,我们定义从xTx_T开始的生成过程为:

pθ(xtnxtn+1,xT)={N(xθ(xt1,t1,xT),ρ02I),n=0q(ρ)(xtnxθ(xtn+1,tn+1,xT),xtn+1,xT),1nN1(12)p_\theta(x_{t_n}|x_{t_{n+1}}, x_T) = \begin{cases} \mathcal{N}(x_\theta(x_{t_1}, t_1, x_T), \rho_0^2 I), & n = 0 \\ q^{(\rho)}(x_{t_n}|x_\theta(x_{t_{n+1}}, t_{n+1}, x_T), x_{t_{n+1}}, x_T), & 1 \leq n \leq N-1 \end{cases} \tag{12}

联合分布为 pθ(xt0:N1xT)=n=0N1pθ(xtnxtn+1,xT)p_\theta(x_{t_0:N-1}|x_T) = \prod_{n=0}^{N-1} p_\theta(x_{t_n}|x_{t_{n+1}}, x_T)。为优化网络参数 θ\theta,我们采用与DDPMs(Ho等人,2020)类似的变分推断目标,不同之处在于这些分布以xTx_T为条件:

J(ρ)(θ)=Eq(xT)Eq(ρ)(xt0:N1xT)[logq(ρ)(xt1:N1x0,xT)logpθ(xt0:N1xT)](13)\mathcal{J}^{(\rho)}(\theta) = \mathbb{E}_{q(x_T)} \mathbb{E}_{q^{(\rho)}(x_{t_0:N-1}|x_T)} \left[ \log q^{(\rho)}(x_{t_1:N-1}|x_0, x_T) - \log p_\theta(x_{t_0:N-1}|x_T) \right] \tag{13}

目标函数等价性

式(9)中DDBM的目标函数 Lw\mathcal{L}_w 似乎与 J(ρ)\mathcal{J}^{(\rho)} 不同:它们分别定义在连续和离散时间步上;源自分数匹配和变分推断;对分数和数据预测采用不同的参数化方式¹。然而,通过聚焦于离散时间步并转换参数化方式,我们证明了它们的等价性。

扩散桥模型的参数化通常与分数预测不同,但可转换为分数预测。详见附录F.1。

表1:不同扩散模型与扩散桥模型的对比

<span style="color:red;">命题2(训练等价性)对于 ρ>0\rho > 0,存在特定权重 γ\gamma,使得在离散时间步 {tn}n=1N\{t_n\}_{n=1}^N 上有:

J(ρ)(θ)=Lγ(θ)+C\mathcal{J}^{(\rho)}(\theta) = \mathcal{L}_\gamma(\theta) + C

其中 CC 是与 θ\theta 无关的常数。此外, Lγ(θ)\mathcal{L}_\gamma(\theta) 中的桥分数预测器 sθs_\thetaJ(ρ)(θ)\mathcal{J}^{(\rho)}(\theta) 中的数据预测器 xθx_\theta 存在如下关系:

sθ(xt,t,xT)=xtatxTbtxθ(xt,t,xT)ct2(14)s_\theta(x_t, t, x_T) = -\frac{x_t - a_t x_T - b_t x_\theta(x_t, t, x_T)}{c_t^2} \tag{14}

(证明见附录B.2)

尽管权重 γ\gamma 可能与训练 sθs_\theta 时实际使用的权重 ww 不完全匹配,但这种差异并不影响我们对 sθs_\theta 的使用(附录C.2)。因此,复用通过 L\mathcal{L} 训练的网络,同时利用不同的 ρ\rho 来提高采样效率是合理的。

4 基于广义扩散桥的采样

既然我们已经确认了将广义扩散桥 pθp_\theta 应用于预训练DDBMs的合理性,并建立了相关理论基础,现在我们可以通过方差参数 ρ\rho 控制一系列推理过程。这使我们能够探索由此产生的采样程序以及 ρ\rho 的影响,以追求更好、更高效的生成效果。

4.1 扩散桥隐式模型(DBIMs)

假设我们在离散时间步 0=t0<t1<<tN1<tN=T0 = t_0 < t_1 < \cdots < t_{N-1} < t_N = T 上进行反向采样。无论桥模型是在离散时间步(Liu等人,2023b)还是连续时间步(Zhou等人,2023)上训练的,采样步骤的数量 NN 和调度都可以独立于模型训练时的原始时间步。根据式(12)中 pθp_\theta 的生成过程,从 tn+1t_{n+1}tnt_n 的更新规则描述为:

xtn=atnxT+btnx^0+ctn2ρn2xtn+1atn+1xTbtn+1x^0ctn+1预测噪声 ϵ^+ρnϵ, ϵN(0,I)(15)x_{t_n} = a_{t_n} x_T + b_{t_n} \hat{x}_0 + \sqrt{c_{t_n}^2 - \rho_n^2} \underbrace{\frac{x_{t_{n+1}} - a_{t_{n+1}} x_T - b_{t_{n+1}} \hat{x}_0}{c_{t_{n+1}}}}_{\text{预测噪声}\ \hat{\epsilon}} + \rho_n \epsilon,\ \epsilon \sim \mathcal{N}(0, I) \tag{15}

其中,x^0=xθ(xtn+1,tn+1,xT)\hat{x}_0 = x_\theta(x_{t_{n+1}}, t_{n+1}, x_T) 表示预测的时刻 00 处的干净数据。

直观来看,上式类似于 DDBM 的前向转移核 xt=atxT+btx0+ctϵ, ϵN(0,I)x_t = a_t x_T + b_t x_0 + c_t \epsilon,\ \epsilon \sim \mathcal{N}(0, I)。相比之下,这里的 x0x_0 被替换为预测值 x^0\hat{x}_0,且标准高斯噪声 ϵ\epsilon 的一部分来自预测噪声 ϵ^\hat{\epsilon}。预测噪声 ϵ^\hat{\epsilon} 由上一时间步的 xtn+1x_{t_{n+1}} 推导而来,并且可以通过预测的干净数据 x^0\hat{x}_0 表示。

方差参数的影响 我们通过考虑两种极端情况,从理论角度研究方差参数 ρ\rho 的影响。首先,我们注意到,当对于每个 0nN10 \leq n \leq N-1ρn=σtn1SNRtn+1SNRtn\rho_n = \sigma_{t_n} \sqrt{1 - \frac{\text{SNR}_{t_{n+1}}}{\text{SNR}_{t_n}}} 时,式(15)中的 xTx_T 项会被消去。在这种情况下,式(4.1)中的前向过程成为马尔可夫桥(详见附录C.1)。此外,推理过程将摆脱 xTx_T 的影响,简化为 pθ(xtnxtn+1)p_\theta(x_{t_n} | x_{t_{n+1}}),类似于DDPMs(Ho等人,2020)中的采样机制。其次,当对于每个 0nN10 \leq n \leq N-1ρn=0\rho_n = 0 时,推理过程将不包含随机噪声,由确定性迭代更新构成,这是隐式概率模型的特征(Mohamed & Lakshminarayanan,2016)。因此,我们将由此产生的模型命名为扩散桥隐式模型(DBIMs),与去噪扩散隐式模型(DDIMs)(Song等人,2021a)相呼应。如表1所示,DBIMs是DDIMs在桥模型场景下的对应物和扩展。

当我们选择介于这两种边界情况之间的 ρ\rho 时,可以得到具有中等非零随机性的非马尔可夫扩散桥。这种桥可能产生更优的样本质量。我们在6.1节中提供了详细的消融实验。

确定性采样初始步骤的奇异性 关于DBIMs,需要注意的一个重要方面是,当 ρ=0\rho = 0 时,其初始步骤存在奇异性,这一特性与扩散模型中的DDIMs有本质区别。具体来说,在初始步骤中,tn+1=Tt_{n+1} = T,式(15)分母中的 ctn+1c_{t_{n+1}} 等于0。这一现象可以直观理解为:给定固定的起始点 xTx_T,对于 t<Tt < T,变量 xtx_t 通常仍然是随机分布的(边缘分布 pθ(xtxT)p_\theta(x_t | x_T) 不是狄拉克分布)。例如,在图像修复任务中,对于一个固定的带掩码图像,应该存在多种合理的完整图像。然而,完全确定性的采样过程会破坏这种随机性。

为了保证理论上的稳健性,我们在初始步骤中采用另一种边界选择 ρn=σtn1SNRtn+1SNRtn\rho_n = \sigma_{t_n} \sqrt{1 - \frac{\text{SNR}_{t_{n+1}}}{\text{SNR}_{t_n}}},这与我们之前 ρN1=ctN1\rho_{N-1} = c_{t_{N-1}} 的限制一致。这将引入一个额外的标准高斯噪声 ϵ\epsilon,我们称之为启动噪声(booting noise)。它解释了在给定固定 xTx_T 的情况下最终样本 x0x_0 的随机性,并且可以被视为潜在变量。我们在图2中展示了完整的DBIM流程。

4.2 与概率流ODE的联系

直观上,确定性采样可以与求解常微分方程(ODE)相关联。通过在式(15)中设置 ρ=0\rho = 0tn+1=tt_{n+1} = ttn+1tn=Δtt_{n+1} - t_n = \Delta t,DBIM的更新规则可以重组为

xtΔtctΔt=xtct+(atΔtctΔtatct)xT+(btΔtctΔtbtct)xθ(xt,t,xT)\frac{x_{t-\Delta t}}{c_{t-\Delta t}} = \frac{x_t}{c_t} + \left( \frac{a_{t-\Delta t}}{c_{t-\Delta t}} - \frac{a_t}{c_t} \right) x_T + \left( \frac{b_{t-\Delta t}}{c_{t-\Delta t}} - \frac{b_t}{c_t} \right) x_\theta(x_t, t, x_T)

由于 ata_tbtb_tctc_t 是关于时间 tt 的连续函数,因此比值 atct\frac{a_t}{c_t}btct\frac{b_t}{c_t} 也是关于 tt 的连续函数。因此,DBIM(ρ=0\rho = 0)可以被视为以下常微分方程(ODE)的欧拉离散化:

d(xtct)=xTd(atct)+xθ(xt,t,xT)d(btct)(16)d\left( \frac{x_t}{c_t} \right) = x_T d\left( \frac{a_t}{c_t} \right) + x_\theta(x_t, t, x_T) d\left( \frac{b_t}{c_t} \right) \tag{16}

尽管它不像常规ODE那样包含 dtdt,但通过导数的链式法则,两个无穷小项 d(atct)d\left( \frac{a_t}{c_t} \right)d(btct)d\left( \frac{b_t}{c_t} \right) 可以用 dtdt 表示。这种ODE形式还表明,通过足够多的离散化步骤,我们可以反转采样过程并获得观测数据的编码,这对于插值或其他下游任务可能很有用。

在DDBMs中,提出了涉及 dxtdx_tdtdt 的概率流ODE(式(8)),并用于确定性采样。我们在以下命题中表明,我们的式(16)中的ODE无需依赖高阶的科尔莫戈罗夫前向方程(或福克-普朗克方程)即可精确导出该概率流ODE。

<span style="color:red;">命题3(与概率流ODE的等价性) 假设 sθ(xt,t,xT)s_\theta(x_t, t, x_T) 被学习为真实的桥分数 xtlogq(xtxT)\nabla_{x_t} \log q(x_t | x_T),且xθx_\theta 通过式(14)与 sθs_\theta 相关联,则式(16)可以转换为DDBMs中提出的概率流ODE。

通过这种选择,在初始步骤 n=N1n = N-1 中,我们有 ρn=σtn1SNRtTSNRtn=ctnctn2ρn2=0\rho_n = \sigma_{t_n} \sqrt{1 - \frac{\text{SNR}_{t_T}}{\text{SNR}_{t_n}}} = c_{t_n} \Rightarrow \sqrt{c_{t_n}^2 - \rho_n^2} = 0,因此式(15)分母中的 ctn+1c_{t_{n+1}} 将被消去。

虽然从我们的ODE转换到概率流ODE很直接,但反向转换可能并不简单,需要复杂的工具,如指数积分器(Calvo & Palencia,2006;Hochbruck等人,2009)(附录C.4)。我们强调我们的ODE与DDBMs中的概率流ODE的区别:(1)我们的ODE具有新颖且极其简洁的形式。(2)尽管理论上等价,但我们的ODE描述的是 xtct\frac{x_t}{c_t} 的演化而非 xtx_t,其离散化是相对于 d(atct)d\left( \frac{a_t}{c_t} \right)d(btct)d\left( \frac{b_t}{c_t} \right) 而非 dtdt 进行的。(3)从经验上看,DBIMs(ρ=0\rho = 0)被证明比概率流ODE的欧拉离散化高效得多,从而大幅加速了DDBMs。(4)与完全确定性的ODE不同,DBIMs能够在不同的随机水平下,在相同的采样步骤数下达到最佳生成质量。

4.3 高阶方法扩展

我们的ODE(式(16))的简洁性和高效性还启发了专为DDBMs设计的新型高阶数值求解器,与一阶欧拉离散化相比,可能带来更快的收敛速度。具体来说,通过时间变量替换 λt=log(btct)=12(SNRtSNRT)\lambda_t = \log\left( \frac{b_t}{c_t} \right) = \frac{1}{2}(\text{SNR}_t - \text{SNR}_T),式(16)从时间 tt 到时间 s<ts < t 的解可以表示为:

xs=csctxt+(ascsctat)xT+csλtλseλxθ(xtλ,tλ,xT)dλ(17)x_s = \frac{c_s}{c_t} x_t + \left( a_s - \frac{c_s}{c_t} a_t \right) x_T + c_s \int_{\lambda_t}^{\lambda_s} e^\lambda x_\theta(x_{t_\lambda}, t_\lambda, x_T) d\lambda \tag{17}

其中 tλt_\lambdaλt\lambda_t 的反函数。遵循成熟的数值方法(Hochbruck & Ostermann,2005)及其在扩散模型中的广泛应用(Zhang & Chen,2022;Lu等人,2022b;Gonzalez等人,2023),这一难以处理的积分可以通过 xθx_\theta 的泰勒展开和高阶导数的有限差分校准来近似。我们在附录D中展示了高阶求解器的推导,在附录E中展示了详细算法。

5 相关工作

我们在附录A中详细介绍了相关工作,包括扩散模型(diffusion models)、扩散桥模型(diffusion bridge models)以及快速采样技术。此外,我们在附录C.3中还讨论了扩散桥隐式模型(DBIM)的一些特殊情况,及其与流匹配(flow matching)、去噪扩散隐式模型(DDIM)和后验采样(posterior sampling)的关联。

6 实验

在本节中,我们将证明:在样本质量和采样效率两个维度上,扩散桥隐式模型(DBIM)均大幅优于去噪扩散桥模型(DDBM)的原始采样过程。我们还将展示DBIM在 latent 空间编码、图像重建,以及基于确定性采样的插值任务中的能力。

DBIM与DDBM之间的所有对比实验,均基于训练参数完全相同的模型展开:对于DDBM,我们采用其提出的混合采样器进行采样;对于DBIM,我们通过在其边界选择之间进行插值,来控制方差参数ρρ,具体公式如下:

ρn=η σtn1SNRtn+1SNRtn, η[0,1](18)\rho_n = \eta \ \sigma_{t_n}\sqrt{1 - \frac{SNR_{t_{n+1}}}{SNR_{t_n}}},\ \eta \in [0, 1] \tag{18}

其中,η=0η=0η=1η=1 分别对应确定性采样和马尔可夫随机采样。

我们开展的实验包括以下两类:

  1. 图像到图像翻译任务:使用Edges→Handbags数据集(Isola等人,2017,图像尺寸64×64)和DIODE-Outdoor数据集(Vasiljevic等人,2019,图像尺寸256×256);
  2. 图像修复任务(补全):使用ImageNet数据集(Deng等人,2009,图像尺寸256×256),修复区域为中心128×128像素的掩码区域。

我们在所有实验中均报告了弗雷歇初始距离(Fréchet Inception Distance, FID)(Heusel等人,2017),并遵循以往研究(Liu等人,2023b;Zhou等人,2023)的做法,额外测量了以下指标:初始分数(Inception Score, IS)(Barratt & Sharma,2018)、学习感知图像块相似度(Learned Perceptual Image Patch Similarity, LPIPS)(Zhang等人,2018)、均方误差(Mean Square Error, MSE,用于图像到图像翻译任务)以及分类器准确率(Classifier Accuracy, CA,用于图像补全任务)。

指标计算的数据集来源如下:Edges→Handbags和DIODE-Outdoor数据集使用完整训练集;ImageNet数据集使用验证集中的1万张图像。推理时间对比结果详见附录G.1,更多实验细节详见附录F。

6.1 样本质量与采样效率

我们在表2和表3中呈现了扩散桥隐式模型(DBIM)的定量结果,并与基于生成对抗网络(GAN)、基于扩散模型(diffusion-based)和基于桥模型(bridge-based)的基准方法进行了对比³。为了同时证明DBIM在低函数评估次数(NFE)下的效率和高NFE下的质量,我们将DBIM的函数评估次数(number of function evaluations, NFEs)设置为20和100。在DBIM的实验中,我们从集合[0.0, 0.3, 0.5, 0.8, 1.0]中选取参数 ηη,并报告最优结果。

在图像翻译任务中,去噪扩散桥模型(DDBM)在所有基准方法中实现了最优的样本质量(以FID衡量),但它需要的函数评估次数 NFE>100NFE>100。相比之下,仅需 NFE=20NFE=20 的DBIM就已超越所有基准方法,其表现优于或与 NFE=118NFE=118 的DDBM相当。当将DBIM的NFE提升至100时,其样本质量进一步提升,在DIODE-Outdoor数据集上的表现甚至超过了 NFE=200NFE=200 的DDBM。

在更具挑战性的ImageNet 256×256图像补全任务中,DBIM的优势更为突出。具体而言,NFE=20NFE=20 的DBIM性能超过了所有基准方法(包括 NFE=500NFE=500 的DDBM),采样速度提升了25倍;当 NFE=100NFE=100 时,DBIM的样本质量持续提升,FID值首次降至4以下。

样本视觉质量的对比结果如图1和图3所示:与DDBM的混合采样器相比,DBIM生成的结果更平滑,噪声伪影显著减少。更多样本示例详见附录H。

方差参数的消融实验

我们探究了方差参数 ρρ(由 ηη 控制)的影响,以明确在不同NFE下,随机性水平对样本质量的作用,结果如表4和表5所示。在图像翻译任务中,我们一致观察到:采用 η=0η=0 的确定性采样器时,模型性能优于 η>0η>0 的随机性采样器。我们认为这与数据集特性相关——此类任务中目标图像与输入条件高度相关且依赖度高,生成模型本身无需过多多样性,因此无需引入随机性的直接映射方式更受青睐。

³值得注意的是,I²SB已发布的检查点(checkpoint)实际上是流匹配/插值模型(flow matching/interpolant model),而非桥模型,原因如下:(1)其以含噪条件(noisy condition)而非干净条件(clean condition)为起点;(2)其在条件与样本之间进行直接插值,未添加额外的中间噪声。

采用 η=0\eta=0 的确定性采样器时,其性能优于 η>0\eta>0 的随机性采样器。我们将其归因于数据集的特性:目标图像与输入条件高度相关且依赖于该条件,这使得生成模型本身无需具备多样性。在这种情况下,无需引入随机性的直接映射方式会更受青睐。

相反,在多样性更强的ImageNet 256×256数据集上进行图像补全任务时,参数 η\eta 在不同函数评估次数(NFE)下均表现出显著影响:

  • NFE20NFE ≤20 时,η=0\eta=0 是接近最优的选择,且随着 η\eta 的增大,弗雷歇初始距离(FID)会稳步上升;
  • NFE50NFE ≥50 时,采用 η=0.8\eta=0.8 甚至 η=1\eta=1 的较高随机性水平,才能获得最优的FID值。

值得注意的是,当 NFE=100NFE =100 时,η=0\eta=0 对应的FID值会收敛至3.91,且进一步增大NFE也不会带来性能提升——这表明通过相应的概率流常微分方程(PF-ODE),模型已收敛到真实样本分布。这一观察结果与扩散模型的特性一致:确定性采样有助于模型快速收敛,而在采样过程中引入随机性则能提升生成多样性;当NFE足够大时,这种随机性最终会使样本质量达到最高水平。

高阶方法

为验证高阶方法的效果,我们将其与一阶方法(即确定性DBIM)进行了对比。如表6所示,在图像翻译任务中,以及在图像补全任务中当 NFE50NFE \leq 50 时,高阶方法始终能提升弗雷歇初始距离(FID)分数,在低NFE范围内提升了生成质量。此外,三阶变体的性能略优于二阶变体。但与扩散模型中的数值求解器不同,在扩散桥中,高阶扩展带来的收益相对有限,且不如将 η\eta 从1调整为0时的提升显著。尽管如此,高阶DBIM仍比基于DDBM概率流常微分方程(PF-ODE)的高阶求解器高效得多。

如图1所示,在使用相同启动噪声(booting noise)的情况下,我们的高阶采样器生成的图像与一阶方法生成的图像语义内容相似;与之不同的是,高阶方法生成的图像视觉质量更优,纹理更精细,进而获得了更优的FID分数。这表明,来自过往网络输出的高阶梯度信息能通过添加高频视觉细节,为生成质量带来提升。

生成多样性

我们参照CMDE(Batzolis等人,2021)和BBDM(Li等人,2023)的方法,通过“多样性分数”对生成多样性进行定量衡量——该分数通过计算多次生成结果的像素级方差得到。如附录G.2所述,增加NFE或减小 η\eta 均能提高多样性分数,这印证了启动噪声的作用。

6.2 重建与插值

如4.2节所述,当 η=0\eta=0 时,DBIM具有确定性,且与神经常微分方程(neural ODE)相关联;通过将启动噪声视为 latent 变量,DBIM能够实现可靠的编码与重建。此外,在 latent 空间中采用球面线性插值(spherical linear interpolation),随后解码回图像空间,可在图像翻译和图像修复任务中实现语义图像插值。

这些能力是 η>0\eta>0 的DBIM或包含随机步骤的DDBM混合采样器无法实现的。我们在图4a中展示了编码与解码结果,结果表明:当采样步数足够时,可实现精准重建;同时,我们也在图4b中展示了插值过程。

图4:确定性DBIM生成多样性的示意图

7 结论

本文提出了扩散桥隐式模型(DBIM),该模型无需额外训练即可加速去噪扩散桥模型(DDBM)的采样过程。与DDBM的连续时间生成过程不同,我们聚焦于离散化采样步骤,提出了一系列广义扩散桥模型(包括非马尔可夫变体)。由此推导的采样过程既是去噪扩散隐式模型(DDIM)在扩散桥领域的对应方法与扩展,还被进一步用于开发高阶数值求解器,填补了扩散桥研究中的相关空白。

在高分辨率数据集和具有挑战性的图像补全任务上的实验表明,DBIM在样本质量和采样效率两方面均具备优势:仅需100步即可实现最先进(state-of-the-art)的FID分数,且相比DDBM的采样过程,最高可实现25倍的加速比。

图5:DBIM案例(η=0\eta=0NFE=500NFE=500

局限性与失效案例

尽管DBIM为扩散桥模型带来了显著的采样加速,但在单步生成方面,其性能仍落后于基于生成对抗网络(GAN)的方法。当NFE较小时,DBIM的生成质量并不理想;即便采用高阶方法,生成结果中仍存在模糊区域(见图1),难以满足实时应用的需求。此外,作为一种无训练推理算法,DBIM无法突破预训练扩散桥模型本身的能力与质量上限。在人脸、手部等复杂精细的补全场景中,即便使用较大的NFE,DBIM也无法消除生成结果中的伪影。

Edges→Handbags示例1
Edges→Handbags示例2
Edges→Handbags示例
DIODE示例1
DIODE示例2
DIODE示例
中心遮挡示例1
中心遮挡示例2
中心遮挡示例
图像恢复任务
图像恢复任务
DBIM高阶算法
DBIM高阶算法
启动噪声
启动噪声
DBIM确定性过程
DBIM确定性过程
DDBM和DBIM在DIODE任务上的性能对比
DDBM和DBIM在DIODE任务上的性能对比
主流扩散模型对比
主流扩散模型对比
对参数η的消融实验
对参数η的消融实验
对方差的消融实验
对方差的消融实验
图像翻译任务上的性能对比
图像翻译任务上的性能对比

DBIM
http://dbqdss.github.io/2025/08/08/DBIM(上)/
作者
失去理想的獾
发布于
2025年8月8日
许可协议