Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

前沿科技 3年前 (2022) 虛像

1 0 0

曾經(jīng)大紅大紫的GAN 已過(guò)時(shí)。

馬里蘭大學(xué)副教授 Tom Goldstein 最近發(fā)表的一個(gè)推文，可謂是一石激起千層浪。

就連科技圈的大佬們也紛紛前來(lái)關(guān)注：

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

話題里 " 劍指 " 的關(guān)鍵詞則是 Diffusion Model，用 Tom 的話來(lái)說(shuō)就是：

在 2021 年，它甚至可以說(shuō)是聞所未聞。

但其實(shí)這個(gè)算法并不陌生，因?yàn)樗?AI 作畫神器DALL · E的核心。

而且 DALL · E 的作者打一開始就 " 沒(méi)看上 "GAN，直接將其放棄。

無(wú)獨(dú)有偶，同樣的話題在國(guó)內(nèi)也引發(fā)了不小的討論：

那么圖像生成領(lǐng)域的這波 " 后浪推前浪 "，究竟是為何？

咱們這就來(lái)盤一盤。

什么是 Diffusion Model？

Diffusion Model 這次被拉進(jìn)聚光燈之下，不得不歸功于各類 "AI 一句話作圖 " 神器的火爆。

例如 OpenAI 家的 DALL · E 2：

谷歌家的 Imagen：

不難看出，這些近期大流行的圖像生成神器，不論是真實(shí)程度亦或是想象、理解能力，都是比較符合人類的預(yù)期。

因此它們也成為了這屆網(wǎng)友們把玩的 " 新寵 "（當(dāng)年 GAN 出道的時(shí)候也是被玩壞了）。

而如此能力背后的關(guān)鍵，便是 Diffusion Model。

它的研究最早可以追溯到 2015 年，當(dāng)時(shí)，斯坦福和伯克利的研究人員發(fā)布了一篇名為 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 的論文：

但這篇研究和目前的 Diffusion Model 非常不一樣；而真正使其發(fā)揮作用的研究是 2020 年，一項(xiàng)名為 Denoising Diffusion Probabilistic Models 的研究：

我們可以先來(lái)看一下各類生成模型之間的對(duì)比：

不難看出，Diffusion Model 和其它模型的不同點(diǎn)在于，它的 latent code ( z ) 和原圖是同尺寸大小的。

若是簡(jiǎn)單來(lái)概括 Diffusion Model，就是存在一系列高斯噪聲（T 輪），將輸入圖片 x0 變?yōu)榧兏咚乖肼?xT。

再細(xì)分來(lái)看，Diffusion Model 首先包含一個(gè)前向過(guò)程（Forward diffusion process）。

這個(gè)過(guò)程的目的，就是往圖片上添加噪聲；但在這一步中還無(wú)法實(shí)現(xiàn)圖片生成。

其次是一個(gè)逆向過(guò)程（Reverse diffusion process），這個(gè)過(guò)程可以理解為 Diffusion 的去噪推斷過(guò)程。

最后在訓(xùn)練階段，則是通過(guò)對(duì)真實(shí)數(shù)據(jù)分布下，最大化模型預(yù)測(cè)分布的對(duì)數(shù)似然。

上述的過(guò)程是基于 DDPM 這項(xiàng)研究展開。

不過(guò)知乎用戶" 我想唱 high C"（TSAIL 博士）認(rèn)為：

DDPM 提出的時(shí)候，領(lǐng)域里的研究者其實(shí)并不完全清楚這個(gè)模型背后的數(shù)學(xué)原理，所以文章里的描述沒(méi)有探尋到更本質(zhì)的數(shù)學(xué)原理。

在他看來(lái)，直到斯坦福大學(xué) Yang Song 等在 Score-Based Generative Modeling through Stochastic Differential Equations 中，才首次揭示了 diffusion model 的連續(xù)版本對(duì)應(yīng)的數(shù)學(xué)背景。

并且將統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的 denoising score matching 方法與 DDPM 中的去噪訓(xùn)練統(tǒng)一起來(lái)。

更多細(xì)節(jié)過(guò)程可以參考文末鏈接中的論文詳情。

那么接下來(lái)需要探討的一個(gè)問(wèn)題是：

為什么 GAN 這么快會(huì)被取代？

用 OpenAI 的一篇論文內(nèi)容來(lái)講，用 Diffusion Model 生成的圖像質(zhì)量明顯優(yōu)于 GAN 模型。

DALL · E 是個(gè)多模態(tài)預(yù)訓(xùn)練大模型，" 多模態(tài) " 和 " 大 " 字都說(shuō)明，訓(xùn)練這個(gè)模型的數(shù)據(jù)集十分龐大冗雜。

發(fā)表這篇推特的 Tom Goldstein 教授提到，GAN 模型訓(xùn)練過(guò)程有個(gè)難點(diǎn)，就是眾多損失函數(shù)的鞍點(diǎn)（saddle-point）的最優(yōu)權(quán)重如何確定，這其實(shí)是個(gè)蠻復(fù)雜的數(shù)學(xué)問(wèn)題。

在多層深度學(xué)習(xí)模型的訓(xùn)練過(guò)程中，需通過(guò)多次反饋，直至模型收斂。

但在實(shí)際操作中發(fā)現(xiàn)，損失函數(shù)往往不能可靠地收斂到鞍點(diǎn)，導(dǎo)致模型穩(wěn)定性較差。即使有研究人員提出一些技巧來(lái)加強(qiáng)鞍點(diǎn)的穩(wěn)定性，但還是不足以解決這個(gè)問(wèn)題。

尤其面對(duì)更加復(fù)雜、多樣化的數(shù)據(jù)，鞍點(diǎn)的處理就變得愈加困難了。

與 GAN 不同，DALL · E 使用 Diffusion Model，不用在鞍點(diǎn)問(wèn)題上糾結(jié)，只需要去最小化一個(gè)標(biāo)準(zhǔn)的凸交叉熵?fù)p失（convex cross-entropy loss），而且人已經(jīng)知道如何使其穩(wěn)定。

這樣就大大簡(jiǎn)化了模型訓(xùn)練過(guò)程中，數(shù)據(jù)處理的難度。說(shuō)白了，就是用一個(gè)新的數(shù)學(xué)范式，從新穎的角度克服了一道障礙。

此外，GAN 模型在訓(xùn)練過(guò)程中，除了需要 " 生成器 "，將采樣的高斯噪聲映射到數(shù)據(jù)分布；還需要額外訓(xùn)練判別器，這就導(dǎo)致訓(xùn)練變得很麻煩了。

和 GAN 相比，Diffusion Model 只需要訓(xùn)練 " 生成器 "，訓(xùn)練目標(biāo)函數(shù)簡(jiǎn)單，而且不需要訓(xùn)練別的網(wǎng)絡(luò)（判別器、后驗(yàn)分布等），瞬間簡(jiǎn)化了一堆東西。

目前的訓(xùn)練技術(shù)讓Diffusion Model 直接跨越了 GAN 領(lǐng)域調(diào)模型的階段，而是直接可以用來(lái)做下游任務(wù)。

△Diffusion Model 直觀圖

從理論角度來(lái)看，Diffusion Model 的成功在于訓(xùn)練的模型只需要 " 模仿 " 一個(gè)簡(jiǎn)單的前向過(guò)程對(duì)應(yīng)的逆向過(guò)程，而不需要像其它模型那樣 " 黑盒 " 地搜索模型。

并且，這個(gè)逆向過(guò)程的每一小步都非常簡(jiǎn)單，只需要用一個(gè)簡(jiǎn)單的高斯分布（q ( x ( t-1 ) | xt ) ）來(lái)擬合。

這為 Diffusion Model 的優(yōu)化帶來(lái)了諸多便利，這也是它經(jīng)驗(yàn)表現(xiàn)非常好的原因之一。

Diffushion Model 是否就是完美？

不見(jiàn)得。

從趨勢(shì)上來(lái)看，Diffushion Model 領(lǐng)域確實(shí)正處于百花齊放的狀態(tài)，但正如 " 我想唱 high C" 所述：

這個(gè)領(lǐng)域有一些核心的理論問(wèn)題還需要研究，這給我們這些做理論的人提供了個(gè)很有價(jià)值的研究?jī)?nèi)容。>

并且，哪怕對(duì)理論研究不感興趣，由于這個(gè)模型已經(jīng)很 work 了，它和下游任務(wù)的結(jié)合也才剛剛起步，有很多地方都可以趕緊占坑。

我相信 Diffusion Model 的加速采樣肯定會(huì)在不久的將來(lái)徹底被解決，從而讓 Diffusion Model 占據(jù)深度生成模型的主導(dǎo)。

而對(duì)于 Diffusion Model 的有效性以及很快取代 GAN 這件事，馬毅教授認(rèn)為充分地說(shuō)明了一個(gè)道理：

幾行簡(jiǎn)單正確的數(shù)學(xué)推導(dǎo)，可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。

不過(guò)對(duì)于這種 " 前浪推后浪 " 的火熱，馬毅教授也有不一樣的觀點(diǎn)：

希望年輕的研究員端正研究的目的和態(tài)度，千萬(wàn)不要被目前熱的東西忽悠。

包括 Diffusion Process，這其實(shí)也是好幾百年 old 的想法，只是老樹發(fā)新芽，找到新的應(yīng)用。

原文地址：http://www.myzaker.com/article/630106b58e9f0952772e2329

tom 伯克利數(shù)學(xué)谷歌高斯

版權(quán)聲明：虛像發(fā)表于 2022年8月21日 pm12:19。
轉(zhuǎn)載請(qǐng)注明：Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？ | 快導(dǎo)航網(wǎng)

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

英特爾將為Raptor Lake加入350W極限性能模式，需配合款新款主板使用

三星990 Pro規(guī)格謎團(tuán)到底是PCIe 4.0還是PCIe 5.0？

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

Diffusion Model一發(fā)力，GAN就過(guò)時(shí)了？？？

英特爾將為Raptor Lake加入350W極限性能模式，需配合款新款主板使用

三星990 Pro規(guī)格謎團(tuán)到底是PCIe 4.0還是PCIe 5.0？

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

運(yùn)營(yíng)相關(guān)

軟件下載

跨境電商

購(gòu)物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長(zhǎng)助手

知識(shí)充能

電商運(yùn)營(yíng)

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂(lè)生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛(ài)好

元宇宙

體育健身

休閑娛樂(lè)

交通旅游

NFT概念

ACG