本文回顧了普林斯頓大學(xué)和英特爾實驗室的DRN(擴張殘差網(wǎng)絡(luò))。2016年ICML發(fā)布了用于語義分割的DilatedNet后,作者提出了DRN,不僅可以提高語義分割效果,還可以提高圖像分類效果,而不增加模型的深度和復(fù)雜度。文章發(fā)表于2017年,被引用超過100次。(SH Tsang @ Medium)
擴張卷積
需要擴張卷積的原因
擴張殘差網(wǎng)絡(luò)(DRN)
定位
去網(wǎng)格化
結(jié)果
1. 擴張卷積
為了簡單起見,我僅引用了DilatedNet結(jié)構(gòu)中的公式:標(biāo)準(zhǔn)卷積(左),擴張卷積(右)左邊是標(biāo)準(zhǔn)卷積。右邊是擴張卷積。我們可以看到在求和時,需要滿足s+l*t=p,索引我們在卷積操作過程中的會跳過一些點。
當(dāng)l=1時,上式表示標(biāo)準(zhǔn)卷積。
當(dāng)l>1時, 上式表示擴張卷積。
標(biāo)準(zhǔn)卷積(l=1)(左),擴張卷積(l=2)(右) 上面的例子說明了l=2時的卷積過程。我們可以看到感知野比標(biāo)準(zhǔn)卷積大。
2. 需要擴張卷積的原因
研究結(jié)果表明,在網(wǎng)絡(luò)末端得到的較小輸出特征map,降低了語義分割的精度。在全卷積網(wǎng)絡(luò)(FCN,https://towardsdatascience.com/review-fcn-semantic-segmentation-eb8c9b50d2d1)中,當(dāng)需要32倍的上采樣時,我們只能得到非常粗略的分割結(jié)果。因此,需要更大的輸出特征map。 一種簡單的方法是刪除網(wǎng)絡(luò)中的下采樣(跨步)步驟,以提高特征map的分辨率。然而,這也減少了感知野,從而嚴(yán)重減少了獲得的上下文信息。因為更高的分辨率而產(chǎn)生的感知野減少的代價是不值得的。 因此,擴張卷積用于增加后面網(wǎng)絡(luò)層的感知野,補償去除下采樣而引起的感知野減少。 研究發(fā)現(xiàn),使用擴張卷積也有助于這篇文章中的圖像分類任務(wù)。 3. 擴張殘差網(wǎng)絡(luò) (DRN)
當(dāng)d=1時,為標(biāo)準(zhǔn)卷積。
原始的殘差網(wǎng)絡(luò)(https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8)
在原殘差網(wǎng)絡(luò)中,最后兩組卷積層G4和G5使用3×3標(biāo)準(zhǔn)卷積(d=1):由于最大池化層的存在,特征map變得越來越小。
輸出特征map的大小只有7×7。這并沒有前面提到的那樣好。
擴張殘差網(wǎng)絡(luò)(DRN)
在G5層,對于第一次卷積(i=1),仍然采用d=2: 最后,DRN中G5層的輸出為28×28,遠(yuǎn)遠(yuǎn)大于原始的ResNet(https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8)。 4. 定位
對于圖像分類任務(wù),最后是一個全局平均池化,然后是1×1卷積層和softmax層。要將模型用于定位,只需刪除平均池化。不涉及任何訓(xùn)練或參數(shù)調(diào)優(yōu)。準(zhǔn)確的分類DRN可以直接用于定位。 5. 去網(wǎng)格化
當(dāng)特征圖的頻率比擴張卷積的采樣率高時,就會出現(xiàn)網(wǎng)格化效應(yīng),如上所示。 DRN-A(上),DRN-B(中),DRN-C(下) DRN-A:僅有膨脹卷積的網(wǎng)絡(luò),有網(wǎng)格效應(yīng)。 DRN-B: 研究發(fā)現(xiàn),第一個最大池化操作會導(dǎo)致高幅度高頻率的激活值。因此,將第一個最大池化層替換為2個殘差塊(4個3×3卷積層),以減少網(wǎng)格效應(yīng)。在網(wǎng)絡(luò)的末端還添加了2個殘差塊。 DRN-C: 在網(wǎng)絡(luò)的末端,擴張率逐漸降低,以消除混疊效應(yīng),如先進行2倍膨脹的卷積,再進行1倍膨脹的卷積。然而,混疊效應(yīng)仍然存在,因為它可以通過殘差連接傳遞。因此,相應(yīng)的殘差連接被刪除。ResNet-18和相應(yīng)DRNs的激活圖DRN-A-18: 隨著卷積的擴張,存在網(wǎng)格效應(yīng)。DRN-B-26: 使用卷積代替最大池化,特征map網(wǎng)格效應(yīng)減少了。DRN-C-26: 隨著擴張卷積的逐步縮小和殘差連接的去除,網(wǎng)格效應(yīng)進一步減小。DRN-C-26中不同層級的特征map的可視化(顯示了每層的最高平均激活值)
6. 結(jié)果
6.1. ImageNet圖像分類
ImageNet驗證集的Top-1和Top-5錯誤率 DRN-A-18和DRN-A-34的1-crop top-1準(zhǔn)確率分別比ResNet-18和ResNet-34高2.43和2.92個百分點。(從ResNet-34到DRN-A-34,相對誤差降低了10.5%。) DRN-A-50在1-crop top-1準(zhǔn)確率上超過ResNet-50一個百分點。 將ResNet直接轉(zhuǎn)換為DRN-A,完全不改變模型的深度或容量,但是顯著提高了分類精度。 每個DRN-C模型都顯著優(yōu)于相應(yīng)的DRN-A。 由DRN-A-18衍生而來的DRN-C-26,其精度與較深的DRN-A-34相當(dāng)。 由DRN-A-34衍生而來的DRN-C-42,其精度與較深的DRN-A-50相當(dāng)。 DRN-C-42接近ResNet-101的精度,但后者層數(shù)是前者的2.4倍。6.2. ImageNet目標(biāo)檢測
這里基于特征map激活值進行弱監(jiān)督目標(biāo)檢測。 C=1000,因為ImageNet是一個1000類的ImageNet數(shù)據(jù)集。在分辨率為W×H的C響應(yīng)map中,f(C, W, H)為位置(W, H)的響應(yīng),每個位置的最可能的類別為g(W, H),邊界框集合為Bi,其中t為激活閾值。bi為在Bi中選擇的最小邊界框。與ground-truth的IOU大于0.5的框,被認(rèn)為是準(zhǔn)確的。ImageNet驗證集目標(biāo)檢測Top-1和Top-5錯誤率DRN的性能優(yōu)于相應(yīng)的ResNet模型,說明了基本DRN結(jié)構(gòu)的優(yōu)勢。DRN-C-26的性能明顯優(yōu)于DRN-A-50,盡管深度要低得多。這表明,去網(wǎng)格化方案對于需要更詳細(xì)的空間圖像分析的應(yīng)用程序具有特別顯著的好處。DRN-C-26也優(yōu)于ResNet-101。6.3. Cityscape數(shù)據(jù)集語義分割
ResNet-101得到的平均IOU為66.6%。 DRN-C-26的表現(xiàn)比ResNet-101基準(zhǔn)模型高出一個多百分點,盡管ResNet-101的網(wǎng)絡(luò)層數(shù)是 DRN-C-26的4倍。DRN-C-42模型的表現(xiàn)比ResNet-101基準(zhǔn)模型高出4個百分點以上,盡管網(wǎng)絡(luò)層數(shù)要低2.4倍。DRN-C-26和DRN-C-42的表現(xiàn)都優(yōu)于DRN-A-50,這表明去網(wǎng)格化結(jié)構(gòu)對密集預(yù)測任務(wù)特別有利。如上所示,即使模型是利用密集標(biāo)注像素級數(shù)據(jù)集進行監(jiān)督訓(xùn)練的,DRN-A-50的預(yù)測結(jié)果也被網(wǎng)格效應(yīng)所破壞。相比之下,DRN-C-26的預(yù)測不僅更準(zhǔn)確,而且明顯更清晰。6.4. 使用DRN-D模型的結(jié)果
作者的GitHub中還有一種DRN-D版本,它是DRN-C的一個簡化版本。 在ImageNet的驗證集上的分類錯誤率和模型參數(shù)的個數(shù)在ImageNet的驗證集上的分類錯誤率和模型參數(shù)的個數(shù)所有的DRN都可以在參數(shù)較少(模型較小)的情況下獲得較低的錯誤率。 分割的mIoU和模型參數(shù)個數(shù)(在多種學(xué)習(xí)率、隨機縮放比率和旋轉(zhuǎn)等設(shè)置下進行訓(xùn)練)。DRN-D-22參數(shù)較少,達到68% mIoU,與DRN-C-26相同,高于DRN-A-50。這里并沒有逐步降低網(wǎng)絡(luò)特征表示的分辨率,直到場景的空間結(jié)構(gòu)不再可見,而是通過使最后的輸出層始終保持較高空間分辨率。提高了圖像分類精度,最終DRN性能優(yōu)于最先進的ResNet。開篇圖來源:https://upload.wikimedia.org/wikipedia/commons/5/5e/Sleep_EEG_REM.png
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。