本文選擇的 10 篇 GAN 論文包括:
?DCGANs
?Improved Techniques for Training GANs
Conditional GANs
Progressively Growing GANs
?BigGAN
StyleGAN
CycleGAN
?Pix2Pix
?StackGAN
?Generative Adversarial Networks
我建議你以 DCGAN 這篇論文來(lái)開(kāi)啟你的 GAN 之旅。這篇論文展示了卷積層如何與GAN 一起使用,并為此提供了一系列架構(gòu)指南。這篇論文還討論了 GAN 特征的可視化、潛在空間插值、利用判別器特征來(lái)訓(xùn)練分類器、評(píng)估結(jié)果等問(wèn)題。所有這些問(wèn)題都必然會(huì)出現(xiàn)在你的 GAN 研究中。
總之,DCGAN 論文是一篇必讀的 GAN 論文,因?yàn)樗砸环N非常清晰的方式定義架構(gòu),因此很容易從一些代碼開(kāi)始,并開(kāi)始形成開(kāi)發(fā) GAN的直覺(jué)。
DCGAN 模型:具有上采樣卷積層的生成器架構(gòu)
論文:
Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks
Alec Radford, Luke Metz, Soumith Chintala
這篇論文 (作者包括 Ian Goodfellow) 根據(jù)上述 DCGAN 論文中列出的架構(gòu)指南,提供了一系列建議。這篇論文將幫助你了解 GAN 不穩(wěn)定性的最佳假設(shè)。此外,本文還提供了許多用于穩(wěn)定 DCGAN 訓(xùn)練的其他機(jī)器,包括特征匹配、 minibatch 識(shí)別、歷史平均、單邊標(biāo)簽平滑和虛擬批標(biāo)準(zhǔn)化。使用這些技巧來(lái)構(gòu)建一個(gè)簡(jiǎn)單的 DCGAN 實(shí)現(xiàn)是一個(gè)很好的練習(xí),有助于更深入地了解 GAN。
論文:
Improved Techniques for Training GANs
Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen
這是一篇很好的論文,讀起來(lái)很順暢。條件 GAN(Conditional GAN) 是最先進(jìn)的 GAN之一。論文展示了如何整合數(shù)據(jù)的類標(biāo)簽,從而使 GAN 訓(xùn)練更加穩(wěn)定。利用先驗(yàn)信息對(duì) GAN 進(jìn)行調(diào)節(jié)這樣的概念,在此后的 GAN 研究中是一個(gè)反復(fù)出現(xiàn)的主題,對(duì)于側(cè)重于 image-to-image 或 text-to-image 的論文尤其重要。
Conditional GAN 架構(gòu):除了隨機(jī)噪聲向量 z 之外,類標(biāo)簽 y 被連接在一起作為網(wǎng)絡(luò)的輸入
論文:
Conditional Generative Adversarial Nets
Mehdi Mirza, Simon Osindero
Progressively Growing GAN (PG-GAN) 有著驚人的結(jié)果,以及對(duì) GAN 問(wèn)題的創(chuàng)造性方法,因此也是一篇必讀論文。
這篇 GAN 論文來(lái)自 NVIDIA Research,提出以一種漸進(jìn)增大(progressive growing)的方式訓(xùn)練 GAN,通過(guò)使用逐漸增大的 GAN 網(wǎng)絡(luò)(稱為 PG-GAN)和精心處理的CelebA-HQ 數(shù)據(jù)集,實(shí)現(xiàn)了效果令人驚嘆的生成圖像。作者表示,這種方式不僅穩(wěn)定了訓(xùn)練,GAN 生成的圖像也是迄今為止質(zhì)量最好的。
它的關(guān)鍵想法是漸進(jìn)地增大生成器和鑒別器:從低分辨率開(kāi)始,隨著訓(xùn)練的進(jìn)展,添加新的層對(duì)越來(lái)越精細(xì)的細(xì)節(jié)進(jìn)行建模?!癙rogressive Growing” 指的是先訓(xùn)練 4x4 的網(wǎng)絡(luò),然后訓(xùn)練 8x8,不斷增大,最終達(dá)到 1024x1024。這既加快了訓(xùn)練速度,又大大穩(wěn)定了訓(xùn)練速度,并且生成的圖像質(zhì)量非常高。
Progressively Growing GAN 的多尺度架構(gòu),模型從 4×4 逐步增大到 1024×1024
論文:
Progressive Growing of GANs for Improved Quality, Stability, and Variation
Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen
相關(guān)閱讀:
迄今最真實(shí)的 GAN:英偉達(dá)漸進(jìn)增大方式訓(xùn)練 GAN,生成前所未有高清圖像
BigGAN 模型是基于 ImageNet 生成圖像質(zhì)量最高的模型之一。該模型很難在本地機(jī)器上實(shí)現(xiàn),而且 BigGAN 有許多組件,如 Self-Attention、 Spectral Normalization 和帶有投影鑒別器的 cGAN,這些組件在各自的論文中都有更好的解釋。不過(guò),這篇論文對(duì)構(gòu)成當(dāng)前最先進(jìn)技術(shù)水平的基礎(chǔ)論文的思想提供了很好的概述,因此非常值得閱讀。
BigGAN 生成的圖像
論文:
Large Scale GAN Training for High Fidelity Natural Image Synthesis
Andrew Brock, Jeff Donahue, Karen Simonyan
StyleGAN 模型可以說(shuō)是最先進(jìn)的,特別是利用了潛在空間控制。該模型借鑒了神經(jīng)風(fēng)格遷移中一種稱為自適應(yīng)實(shí)例標(biāo)準(zhǔn)化 (AdaIN) 的機(jī)制來(lái)控制潛在空間向量 z。映射網(wǎng)絡(luò)和 AdaIN 條件在整個(gè)生成器模型中的分布的結(jié)合使得很難自己實(shí)現(xiàn)一個(gè) StyleGAN,但它仍是一篇很好的論文,包含了許多有趣的想法。
StyleGAN 架構(gòu),允許潛在空間控制
論文:
A Style-Based Generator Architecture for Generative Adversarial Networks
Tero Karras, Samuli Laine, Timo Aila
CycleGAN 的論文不同于前面列舉的 6 篇論文,因?yàn)樗懻摰氖?image-to-image 的轉(zhuǎn)換問(wèn)題,而不是隨機(jī)向量的圖像合成問(wèn)題。CycleGAN 更具體地處理了沒(méi)有成對(duì)訓(xùn)練樣本的 image-to-image 轉(zhuǎn)換的情況。然而,由于 Cycle-Consistency loss 公式的優(yōu)雅性,以及如何穩(wěn)定 GAN 訓(xùn)練的啟發(fā)性,這是一篇很好的論文。CycleGAN 有很多很酷的應(yīng)用,比如超分辨率,風(fēng)格轉(zhuǎn)換,例如將馬的圖像變成斑馬。
Cycle Consistency Loss 背后的主要想法,一個(gè)句子從法語(yǔ)翻譯成英語(yǔ),再翻譯回法語(yǔ),應(yīng)該跟原來(lái)的是同一個(gè)句子
論文:
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
Pix2Pix 是另一種圖像到圖像轉(zhuǎn)換的 GAN 模型。該框架使用成對(duì)的訓(xùn)練樣本,并在GAN 模型中使用多種不同的配置。讀這篇論文時(shí),我覺(jué)得最有趣部分是關(guān)于 PatchGAN的討論。PatchGAN 通過(guò)觀察圖像的 70×70 的區(qū)域來(lái)判斷它們是真的還是假的,而不是查看整個(gè)圖像。該模型還展示了一個(gè)有趣的 U-Net 風(fēng)格的生成器架構(gòu),以及在生成器模型中使用 ResNet 風(fēng)格的 skip connections。 Pix2Pix 有很多很酷的應(yīng)用,比如將草圖轉(zhuǎn)換成逼真的照片。
使用成對(duì)的訓(xùn)練樣本進(jìn)行 Image-to-Image 轉(zhuǎn)換
論文:
Image-to-Image Translation with Conditional Adversarial Networks
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros
StackGAN 的論文與本列表中的前幾篇論文相比非常不同。它與 Conditional GAN 和Progressively Growing GANs 最為相似。StackGAN 模型的工作原理與 Progressively Growing GANs 相似,因?yàn)樗梢栽诙鄠€(gè)尺度上工作。StackGAN 首先輸出分辨率為64×64 的圖像,然后將其作為先驗(yàn)信息生成一個(gè) 256×256 分辨率的圖像。
StackGAN是從自然語(yǔ)言文本生成圖像。這是通過(guò)改變文本嵌入來(lái)實(shí)現(xiàn)的,以便捕獲視覺(jué)特征。這是一篇非常有趣的文章,如果 StyleGAN 中顯示的潛在空間控制與 StackGAN 中定義的自然語(yǔ)言接口相結(jié)合,想必會(huì)非常令人驚訝。
基于文本嵌入的 StackGAN 多尺度架構(gòu)背后的想法
論文:
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas
Ian Goodfellow 的原始 GAN 論文對(duì)任何研究 GAN 的人來(lái)說(shuō)都是必讀的。這篇論文定義了 GAN 框架,并討論了 “非飽和” 損失函數(shù)。論文還給出了最優(yōu)判別器的推導(dǎo),這是近年來(lái) GAN 論文中經(jīng)常出現(xiàn)的一個(gè)證明。論文還在 MNIST、TFD 和 CIFAR-10 圖像數(shù)據(jù)集上對(duì) GAN 的有效性進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
論文:
Generative Adversarial Networks
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio
原文鏈接:
新智元春季招聘開(kāi)啟,一起弄潮AI之巔!
【2019新智元 AI 技術(shù)峰會(huì)倒計(jì)時(shí)8天】
2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開(kāi)年盛典——2019新智元AI技術(shù)峰會(huì)。峰會(huì)以“智能云·芯世界“為主題,聚焦智能云和AI芯片的發(fā)展,重塑未來(lái)AI世界格局。
同時(shí),新智元將在峰會(huì)現(xiàn)場(chǎng)權(quán)威發(fā)布若干AI白皮書,聚焦產(chǎn)業(yè)鏈的創(chuàng)新活躍,評(píng)述華人AI學(xué)者的影響力,助力中國(guó)在世界級(jí)的AI競(jìng)爭(zhēng)中實(shí)現(xiàn)超越。
聯(lián)系客服