曾經(jīng)大紅大紫的GAN 已過(guò)時(shí)。
馬里蘭大學(xué)副教授 Tom Goldstein 最近發(fā)表的一個(gè)推文,可謂是一石激起千層浪。
就連科技圈的大佬們也紛紛前來(lái)關(guān)注:

話題里 " 劍指 " 的關(guān)鍵詞則是 Diffusion Model,用 Tom 的話來(lái)說(shuō)就是:
在 2021 年,它甚至可以說(shuō)是聞所未聞。
但其實(shí)這個(gè)算法并不陌生,因?yàn)樗?AI 作畫神器DALL · E的核心。
而且 DALL · E 的作者打一開始就 " 沒(méi)看上 "GAN,直接將其放棄。
無(wú)獨(dú)有偶,同樣的話題在國(guó)內(nèi)也引發(fā)了不小的討論:

那么圖像生成領(lǐng)域的這波 " 后浪推前浪 ",究竟是為何?
咱們這就來(lái)盤一盤。
什么是 Diffusion Model?
Diffusion Model 這次被拉進(jìn)聚光燈之下,不得不歸功于各類 "AI 一句話作圖 " 神器的火爆。
例如 OpenAI 家的 DALL · E 2:

谷歌家的 Imagen:

不難看出,這些近期大流行的圖像生成神器,不論是真實(shí)程度亦或是想象、理解能力,都是比較符合人類的預(yù)期。
因此它們也成為了這屆網(wǎng)友們把玩的 " 新寵 "(當(dāng)年 GAN 出道的時(shí)候也是被玩壞了)。
而如此能力背后的關(guān)鍵,便是 Diffusion Model。
它的研究最早可以追溯到 2015 年,當(dāng)時(shí),斯坦福和伯克利的研究人員發(fā)布了一篇名為 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 的論文:

但這篇研究和目前的 Diffusion Model 非常不一樣;而真正使其發(fā)揮作用的研究是 2020 年,一項(xiàng)名為 Denoising Diffusion Probabilistic Models 的研究:

我們可以先來(lái)看一下各類生成模型之間的對(duì)比:

不難看出,Diffusion Model 和其它模型的不同點(diǎn)在于,它的 latent code ( z ) 和原圖是同尺寸大小的。
若是簡(jiǎn)單來(lái)概括 Diffusion Model,就是存在一系列高斯噪聲(T 輪),將輸入圖片 x0 變?yōu)榧兏咚乖肼?xT。
再細(xì)分來(lái)看,Diffusion Model 首先包含一個(gè)前向過(guò)程(Forward diffusion process)。
這個(gè)過(guò)程的目的,就是往圖片上添加噪聲;但在這一步中還無(wú)法實(shí)現(xiàn)圖片生成。

其次是一個(gè)逆向過(guò)程(Reverse diffusion process),這個(gè)過(guò)程可以理解為 Diffusion 的去噪推斷過(guò)程。

最后在訓(xùn)練階段,則是通過(guò)對(duì)真實(shí)數(shù)據(jù)分布下,最大化模型預(yù)測(cè)分布的對(duì)數(shù)似然。
上述的過(guò)程是基于 DDPM 這項(xiàng)研究展開。
不過(guò)知乎用戶" 我想唱 high C"(TSAIL 博士)認(rèn)為:
DDPM 提出的時(shí)候,領(lǐng)域里的研究者其實(shí)并不完全清楚這個(gè)模型背后的數(shù)學(xué)原理,所以文章里的描述沒(méi)有探尋到更本質(zhì)的數(shù)學(xué)原理。
在他看來(lái),直到斯坦福大學(xué) Yang Song 等在 Score-Based Generative Modeling through Stochastic Differential Equations 中,才首次揭示了 diffusion model 的連續(xù)版本對(duì)應(yīng)的數(shù)學(xué)背景。
并且將統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的 denoising score matching 方法與 DDPM 中的去噪訓(xùn)練統(tǒng)一起來(lái)。

更多細(xì)節(jié)過(guò)程可以參考文末鏈接中的論文詳情。
那么接下來(lái)需要探討的一個(gè)問(wèn)題是:
為什么 GAN 這么快會(huì)被取代?
用 OpenAI 的一篇論文內(nèi)容來(lái)講,用 Diffusion Model 生成的圖像質(zhì)量明顯優(yōu)于 GAN 模型。
DALL · E 是個(gè)多模態(tài)預(yù)訓(xùn)練大模型," 多模態(tài) " 和 " 大 " 字都說(shuō)明,訓(xùn)練這個(gè)模型的數(shù)據(jù)集十分龐大冗雜。
發(fā)表這篇推特的 Tom Goldstein 教授提到,GAN 模型訓(xùn)練過(guò)程有個(gè)難點(diǎn),就是眾多損失函數(shù)的鞍點(diǎn)(saddle-point)的最優(yōu)權(quán)重如何確定,這其實(shí)是個(gè)蠻復(fù)雜的數(shù)學(xué)問(wèn)題。

在多層深度學(xué)習(xí)模型的訓(xùn)練過(guò)程中,需通過(guò)多次反饋,直至模型收斂。
但在實(shí)際操作中發(fā)現(xiàn),損失函數(shù)往往不能可靠地收斂到鞍點(diǎn),導(dǎo)致模型穩(wěn)定性較差。即使有研究人員提出一些技巧來(lái)加強(qiáng)鞍點(diǎn)的穩(wěn)定性,但還是不足以解決這個(gè)問(wèn)題。
尤其面對(duì)更加復(fù)雜、多樣化的數(shù)據(jù),鞍點(diǎn)的處理就變得愈加困難了。
與 GAN 不同,DALL · E 使用 Diffusion Model,不用在鞍點(diǎn)問(wèn)題上糾結(jié),只需要去最小化一個(gè)標(biāo)準(zhǔn)的凸交叉熵?fù)p失(convex cross-entropy loss),而且人已經(jīng)知道如何使其穩(wěn)定。
這樣就大大簡(jiǎn)化了模型訓(xùn)練過(guò)程中,數(shù)據(jù)處理的難度。說(shuō)白了,就是用一個(gè)新的數(shù)學(xué)范式,從新穎的角度克服了一道障礙。
此外,GAN 模型在訓(xùn)練過(guò)程中,除了需要 " 生成器 ",將采樣的高斯噪聲映射到數(shù)據(jù)分布;還需要額外訓(xùn)練判別器,這就導(dǎo)致訓(xùn)練變得很麻煩了。
和 GAN 相比,Diffusion Model 只需要訓(xùn)練 " 生成器 ",訓(xùn)練目標(biāo)函數(shù)簡(jiǎn)單,而且不需要訓(xùn)練別的網(wǎng)絡(luò)(判別器、后驗(yàn)分布等),瞬間簡(jiǎn)化了一堆東西。
目前的訓(xùn)練技術(shù)讓Diffusion Model 直接跨越了 GAN 領(lǐng)域調(diào)模型的階段,而是直接可以用來(lái)做下游任務(wù)。

△Diffusion Model 直觀圖
從理論角度來(lái)看,Diffusion Model 的成功在于訓(xùn)練的模型只需要 " 模仿 " 一個(gè)簡(jiǎn)單的前向過(guò)程對(duì)應(yīng)的逆向過(guò)程,而不需要像其它模型那樣 " 黑盒 " 地搜索模型。
并且,這個(gè)逆向過(guò)程的每一小步都非常簡(jiǎn)單,只需要用一個(gè)簡(jiǎn)單的高斯分布(q ( x ( t-1 ) | xt ) )來(lái)擬合。
這為 Diffusion Model 的優(yōu)化帶來(lái)了諸多便利,這也是它經(jīng)驗(yàn)表現(xiàn)非常好的原因之一。
Diffushion Model 是否就是完美?
不見(jiàn)得。
從趨勢(shì)上來(lái)看,Diffushion Model 領(lǐng)域確實(shí)正處于百花齊放的狀態(tài),但正如 " 我想唱 high C" 所述:
這個(gè)領(lǐng)域有一些核心的理論問(wèn)題還需要研究,這給我們這些做理論的人提供了個(gè)很有價(jià)值的研究?jī)?nèi)容。>
并且,哪怕對(duì)理論研究不感興趣,由于這個(gè)模型已經(jīng)很 work 了,它和下游任務(wù)的結(jié)合也才剛剛起步,有很多地方都可以趕緊占坑。
我相信 Diffusion Model 的加速采樣肯定會(huì)在不久的將來(lái)徹底被解決,從而讓 Diffusion Model 占據(jù)深度生成模型的主導(dǎo)。
而對(duì)于 Diffusion Model 的有效性以及很快取代 GAN 這件事,馬毅教授認(rèn)為充分地說(shuō)明了一個(gè)道理:
幾行簡(jiǎn)單正確的數(shù)學(xué)推導(dǎo),可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。
不過(guò)對(duì)于這種 " 前浪推后浪 " 的火熱,馬毅教授也有不一樣的觀點(diǎn):
希望年輕的研究員端正研究的目的和態(tài)度,千萬(wàn)不要被目前熱的東西忽悠。
包括 Diffusion Process,這其實(shí)也是好幾百年 old 的想法,只是老樹發(fā)新芽,找到新的應(yīng)用。
原文地址:http://www.myzaker.com/article/630106b58e9f0952772e2329
轉(zhuǎn)載請(qǐng)注明:Diffusion Model一發(fā)力,GAN就過(guò)時(shí)了??? | 快導(dǎo)航網(wǎng)