加入極市專業(yè)CV交流群,與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度 等名校名企視覺開發(fā)者互動交流!
同時提供每月大咖直播分享、真實項目需求對接、干貨資訊匯總,行業(yè)技術(shù)交流。關(guān)注 極市平臺 公眾號 ,回復(fù) 加群,立刻申請入群~
導(dǎo)語:愷明大神出品,必屬精品。Facebook的研究員從一個新奇的角度對神經(jīng)網(wǎng)絡(luò)的表示與設(shè)計進行探索,提出了一種新穎的相關(guān)圖表示方式。它有助于對現(xiàn)有網(wǎng)絡(luò)架構(gòu)進行更深層次的分析與性能評價。這種相關(guān)圖的表示方式、實驗發(fā)現(xiàn)等確實挺有意思,也與現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計有一定相通之處,故推薦各位同學(xué)。
神經(jīng)網(wǎng)絡(luò)通用被表示成圖的形式(即神經(jīng)元之間通過邊進行鏈接),盡管這種表示方式得到了廣泛應(yīng)用,但關(guān)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)系卻鮮少有所了解。
作者系統(tǒng)的研究了神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)是如何影響其性能的,為達成該目的,作者開發(fā)了一種新穎的稱之為relational graph
(相關(guān)圖)的圖表示方式,神經(jīng)網(wǎng)絡(luò)的層沿圖像結(jié)構(gòu)進行多次信息交互?;谶@種圖表示方式,作者發(fā)現(xiàn)了這樣幾點有意思發(fā)現(xiàn):
神經(jīng)網(wǎng)絡(luò)可以通過計算圖方式進行表示,神經(jīng)元可以表示為節(jié)點,不同層神經(jīng)網(wǎng)絡(luò)之間的連接可以通過有向邊表示。這種圖表示方式說明了神經(jīng)網(wǎng)絡(luò)如何進行信息傳遞。
已有研究表明:神經(jīng)網(wǎng)絡(luò)的性能嚴重依賴于網(wǎng)絡(luò)架構(gòu)。但是網(wǎng)絡(luò)架構(gòu)與性能之間的關(guān)聯(lián)性卻鮮少有所研究,而這對于NAS尤為重要。從這個角度出發(fā),有這樣幾個開放性的問題:(1) 網(wǎng)絡(luò)架構(gòu)與其性能之間是否存在系統(tǒng)性的聯(lián)系?(2) 具有優(yōu)秀性能的神經(jīng)網(wǎng)絡(luò)具有什么樣的結(jié)構(gòu)形式?(3)這種結(jié)構(gòu)形式跨數(shù)據(jù)集、跨任務(wù)的泛化性能如何?(4)是否存在一種有效的方式可以確認給定網(wǎng)絡(luò)具有優(yōu)秀性能?
構(gòu)建這樣一種關(guān)聯(lián)性同時具有科學(xué)與使用價值,因其有助于設(shè)計更高效、更高精度額網(wǎng)絡(luò)架構(gòu),同時有助于新硬件架構(gòu)的設(shè)計,理解神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)有助于促進深度學(xué)習(xí)的前進。
然而,由于如何將神經(jīng)網(wǎng)絡(luò)映射為圖形式并不清晰明了,進而構(gòu)建這樣一種關(guān)聯(lián)性是非常困難的。計算圖方式一種自然的選擇,但其存在這樣兩個局限性:(1)泛化性能缺失;(2)生物神經(jīng)元與神經(jīng)網(wǎng)絡(luò)的聯(lián)系缺失(生物神經(jīng)網(wǎng)絡(luò)不能通過簡單的有向無環(huán)圖表示)。
為系統(tǒng)的研究神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu)與性能之間的關(guān)聯(lián)性,作者設(shè)計了一種稱之為相關(guān)圖的神經(jīng)網(wǎng)絡(luò)圖表示方式。關(guān)鍵聚焦于信息交互,而非交單的有向數(shù)據(jù)流。下圖a給出了示意圖,神經(jīng)元之間進行多次信息交互,進而可以確保新的表示方式具有更豐富多樣性的網(wǎng)絡(luò)表示。
作者同時還設(shè)計了一種稱之為"WS-flex"的圖生成器,它有助于神經(jīng)網(wǎng)絡(luò)設(shè)計空間的系統(tǒng)探索?;谏窠?jīng)科學(xué)的發(fā)現(xiàn),作者通過聚類系數(shù)與平均路徑長度描述神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)架構(gòu)具有靈活性與通用性,可以將其轉(zhuǎn)換為多層感知器與卷積神經(jīng)網(wǎng)絡(luò)(見上圖c和d)。
基于圖像分類數(shù)據(jù)集CIFAR10與ImageNet,作者針對網(wǎng)絡(luò)結(jié)構(gòu)與性能之間的關(guān)聯(lián)性進行了系統(tǒng)研究并得到了這樣幾點發(fā)現(xiàn):
為更好的探索神經(jīng)網(wǎng)絡(luò)的圖結(jié)構(gòu),我們首先介紹一下相關(guān)圖的概念,并說明相關(guān)圖的可以靈活的表示不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
首先從圖的結(jié)果對神經(jīng)網(wǎng)絡(luò)進行回顧,定義圖,其中表示圖的節(jié)點,表示節(jié)點之間的邊,同時每個節(jié)點具有一個節(jié)點特征。當(dāng)神經(jīng)元之間存在信息交互時,我們稱上述圖定義為相關(guān)圖。信息交互通過信息函數(shù)(輸入為節(jié)點特征,輸出為信息)與匯聚函數(shù)(輸入為信息集合,輸出為節(jié)點特征)進行定義。在每一輪信息交互過程中,每個節(jié)點向其近鄰節(jié)點發(fā)送信息,并對收到的信息進行匯聚。每個信息通過信息函數(shù)進行變換并在每個節(jié)點通過匯聚函數(shù)進行集成。假設(shè)進行了R輪信息交互,那么第r次的信息交互可以描述為:
其中表示近鄰節(jié)點集合,注:每個節(jié)點都與自身存在連接邊。上式提供了一種廣義的信息交互。下表給出了不同結(jié)構(gòu)的相關(guān)圖的表示配置。
下圖示出了具有4層64維的多層感知器的相關(guān)圖表示示意圖。
多層感知器由多個多層神經(jīng)元構(gòu)成,每個神經(jīng)元進行輸入的加權(quán)求和,同時后接激活層。假設(shè)MLP的第r層以作為輸入,作為輸出,那么神經(jīng)元的計算可以描述為:
我們來考慮一種極端情況(輸入與輸出具有相同的維度),此時的多層感知器可以描述為完整相關(guān)圖(complete relational graph
),它的每個節(jié)點與其他所有節(jié)點相關(guān)聯(lián)。定長全連接MLP具有特殊的信息交互定義,。定長MLP是更廣義模型下的一種特例,此時信息函數(shù)、匯聚函數(shù)以及相關(guān)圖結(jié)構(gòu)具有可變性?;谏鲜鲂畔⒔换ザx,此時有:
前述公式描述奠定了定長MLP表示為相關(guān)圖的基礎(chǔ),在這部分內(nèi)容中,我們將進一步討論如何將其擴展為更廣義的神經(jīng)網(wǎng)絡(luò)。
同時允許(1) 不同層的相同階段具有不同的維度;(2) 同一層內(nèi),不同節(jié)點具有不同的維度。這種更廣義的定義可以得到更靈活的圖表示。
前述Table1給出了更詳細的節(jié)點特征、信息函數(shù)以及匯聚函數(shù)在不同網(wǎng)絡(luò)中的表現(xiàn)形式。
在該部分內(nèi)容中,我們將描述如何設(shè)計與探索相關(guān)圖空間以更好的研究神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其性能之間的關(guān)聯(lián)性。需要從三個維度進行考慮:
給定復(fù)雜的圖結(jié)構(gòu),GraphMeasures
將用于對圖屬性進行描述。該文主要聚焦于一個全局圖度量(average path length)與一個局部圖度量(clustering coefficient)。注:這兩個度量方式已被廣泛應(yīng)用與神經(jīng)科學(xué)領(lǐng)域。更詳細定義如下:
給定所選擇的圖度量方式后,我們期望生成大量的滿足圖度量空間的相關(guān)圖,此時需要一個圖生成器。然而,傳統(tǒng)的圖生成器僅僅能生成有限類別的圖,而基于學(xué)習(xí)的方法則主要用于模仿樣板圖。
上圖左說明了現(xiàn)有圖生成技術(shù)的局限性:僅能生成特定類型的圖。為此作者提出了一種新的圖生成器WS-flex,它可以生成更廣義的圖結(jié)果(考考上圖右)。關(guān)于WS-flex圖像生成器的描述見下圖,為避免誤導(dǎo)各位同學(xué),直接將原文搬移過來:
WS-flex可以生成更多樣性的相關(guān)圖,也就是說它幾乎可以覆蓋所有經(jīng)典圖生成方法所生成的圖,見上示意圖。它通過松弛節(jié)點的約束性得生成WS模型。特別的,WS-flex可以通過節(jié)點參數(shù)n、平均自由度k以及重置概率p進行描述。而圖中的邊數(shù)量可以通過決定。WS-flex首先常見了一個包含節(jié)點連接的圖,然后隨機挑選e與n節(jié)點并進行連接,最后所有邊以概率p重置。作者采用WS-flex生成器在相應(yīng)空間進行均勻平滑采樣,最終得到了3942個圖,見Figure1c。
為更好的對不同圖表示的神經(jīng)網(wǎng)絡(luò)進行比較,我們需要確保所有的網(wǎng)絡(luò)具有相同的復(fù)雜度,從而確保了其性能差異僅源自結(jié)構(gòu)的差異。作者提出采用FLOPS作為度量準則,首先計算baseline網(wǎng)絡(luò)的FLOPS,然后將其作為參考調(diào)節(jié)不同的網(wǎng)絡(luò)以匹配該復(fù)雜度(容差0.5%)。
在CIFAR10實驗過程中,作者采用具有5層512隱層神經(jīng)元的MLP作為baseline,輸入為3072維,每個MLP層具有ReLU激活與BatchNorm。Batch=128,合計訓(xùn)練200epoch,初始學(xué)習(xí)率為0.1,學(xué)習(xí)率衰減機制為cosine。采用不同種子點訓(xùn)練5次取平均。
在ImageNet實驗過程中,采用了三種類型的ResNet(ResNet34,ResNet34-sep,ResNet50)、EfficientNet-B0以及簡單的類似VGG的8層CNN。所有模型分別訓(xùn)練100epoch,學(xué)習(xí)率方面同前,ResNet的Batch=256,EfficientNet-B0的batch=512。采用了不同種子點訓(xùn)練三次取平均。
下圖給出了不同實驗結(jié)果的系統(tǒng)性效果圖,acf則給出了圖度量的熱圖與性能的示意圖。
總而言之,上圖顯示出了現(xiàn)有圖結(jié)構(gòu)優(yōu)于完整圖baseline,而最佳相關(guān)圖在CIFAR10上以1.4%指標優(yōu)于完整圖baseline,在ImageNet上0.5%~1.2%的指標優(yōu)于完整圖baseline。
與此同時,我們可以看到:具有優(yōu)異性能的相關(guān)圖傾向于聚焦于靶點附近(見上圖f)。可以通過這樣幾個步驟尋找該靶點:
如上圖bd所示,模型性能與圖度量準則之間存在二階多項式關(guān)系,呈現(xiàn)平滑U型相關(guān)性。
接下來,我們再來分析一下相關(guān)圖跨跨數(shù)據(jù)集方面的一致性。從上圖f可以看到:靶點位置具有跨網(wǎng)絡(luò)結(jié)構(gòu)一致性。
全文到此結(jié)束,更多實驗結(jié)果建議去查看原文。作者在文中進行了大量的消融實驗、關(guān)聯(lián)性討論、實現(xiàn)探討以及神經(jīng)網(wǎng)絡(luò)與GNN的關(guān)聯(lián)性。為避免誤導(dǎo)各位同學(xué),這里就不對實驗部分進行過多介紹,前面主要針對核心實驗結(jié)果進行了說明。更多的實驗分析建議各位同學(xué)去查看原文,以更好的理解作者想要表達的意思,上文僅為筆者的一點點記錄,難免有理解錯誤之處,還望擔(dān)待。
該文提出了一種新的視角:采用相關(guān)圖表達分析理解神經(jīng)網(wǎng)絡(luò)。該文為傳統(tǒng)計算架構(gòu)到圖架構(gòu)研究提供了一種信息過渡。與此同時,其他科學(xué)領(lǐng)域的的優(yōu)秀圖結(jié)構(gòu)與方法可以為深度神經(jīng)網(wǎng)絡(luò)的理解與設(shè)計提供幫助,該文所提方法有助于深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)的理解與設(shè)計,為未來高效而輕量的網(wǎng)絡(luò)設(shè)計提供了一種引導(dǎo)。