开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費電子書等14項超值服

          開通VIP
          【論文解讀】Facebook 何凱明 Mask R-CNN 狙擊目標(biāo)實例分割

          導(dǎo)讀:自從將卷積神經(jīng)網(wǎng)絡(luò)引入了目標(biāo)檢測領(lǐng)域后,從rcnn到fast-rcnn,然后到end-to-end的faster-rcnn,除了yolo一枝獨秀外,基本壟斷了整個目標(biāo)檢測領(lǐng)域;而何凱明的resnet基本成了整個圖像分類算法的巔峰。這一次,他們強強聯(lián)手準(zhǔn)備狙擊實例分割(instance segmentation)了。

          什么是instance segmentation:簡單講,一群人在圖片里面,我希望把每個人都給我分割出來。分類只能做到識別這個圖片是人;目標(biāo)檢測只能檢測到這個圖片里有人,把人的地方框出來,對每一個人這個個體不一樣是沒有判斷的,統(tǒng)一認(rèn)為是人;而圖像分割主要是將人和背景分割出來,而實例分割就是要把每個人清晰的分割出來。


          作者:黃瑋

          來源:全球人工智能 aicapital


            Facebook MaskR-CNN 論文解讀  

          Facebook人工智能研究小組提出更簡單靈活和通用的目標(biāo)實例分割框架MaskR-CNN,文章提出了一種從概念上更簡單、靈活和通用的用于目標(biāo)實例分割(object instance segmentation)的框架Mask R-CNN,該方法能有效地在每個實例中探測同時出現(xiàn)的目標(biāo),并對每個實例生成一個高質(zhì)量的分割掩碼(segmentation mask)。

          Mask R-CNN是在 Faster R-CNN 上的擴展——在其已有的用于邊界框識別分支上添加了一個并行的用于預(yù)測目標(biāo)掩碼的分支。Mask R-CNN的訓(xùn)練很簡單,只是在R-CNN的基礎(chǔ)增加了少量的計算量,大約為5fps。另外,R-CNN掩碼能夠更好地適用于其他任務(wù),例如估計同一圖片中人物的姿態(tài),本文在COCO挑戰(zhàn)中的3種任務(wù)(包括實例分割、邊界框目標(biāo)探測、任務(wù)關(guān)鍵點檢測)種都獲得了最好的成績。在沒有適用其他技巧的情況下,Mask R--CNN的表現(xiàn)超過了現(xiàn)有的單個模型,包括COCO 2016挑戰(zhàn)賽的獲勝模型。本報道將會簡要從提出背景、關(guān)鍵概念、Mask R--CNN簡介以及相關(guān)實驗結(jié)果四個發(fā)面進(jìn)行介紹。

            提出背景  

          視覺領(lǐng)域的研究飛速提升了目標(biāo)探測和語義分割在近年來的成績。Facebook提出的這一框架將對如Fast/Faster R-CNN和完全卷機網(wǎng)絡(luò)(FCN)在內(nèi)的目標(biāo)探測和語義分割在內(nèi)的基礎(chǔ)框架有重大作用。

          圖 1用于實例分割的Mask R-CNN框架

          實例分割工作之所以很難,是因為它要求對同一圖像中的多個對象進(jìn)行精確的探測和分割,這樣的工作需要結(jié)合經(jīng)典經(jīng)算計視覺的目標(biāo)探測任務(wù)(tasks of object detection)中的多個元素,目標(biāo)探測任務(wù)需要將每個個體實例進(jìn)行分類,并在邊界框內(nèi)進(jìn)行定位,最后進(jìn)行語義分割(將每個像素進(jìn)行分類的工作)?;谝陨系拿枋觯憧赡苡X得實例分割工作需要一個復(fù)雜的模型才能達(dá)到良好的效果,但是Facebook提出的Mask R-CNN模型卻出乎意料地集簡潔、靈活和快速于一身,并擁有目前來說最好的表現(xiàn)。

          總的來說,Mask R-CNN是基于Faster R-CNN的基于上演進(jìn)改良而來,F(xiàn)asterR-CNN并不是為了輸入輸出之間進(jìn)行像素對齊的目標(biāo)而設(shè)計的,為了彌補這個不足,我們提出了一個簡潔非量化的層,名叫RoIAlign,RoIAlign可以保留大致的空間位置,除了這個改進(jìn)之外,RoIAlign還有一個重大的影響:那就是它能夠相對提高10%到50%的掩碼精確度(Mask Accuracy),這種改進(jìn)可以在更嚴(yán)格的定位度量指標(biāo)下得到更好的度量結(jié)果。第二,我們發(fā)現(xiàn)分割掩碼和類別預(yù)測很重要:為此,我們?yōu)槊總€類別分別預(yù)測了一個二元掩碼。基于以上的改進(jìn),我們最后的模型Mask R-CNN的表現(xiàn)超過了之前所有COCO實例分割任務(wù)的單個模型,本模型可以在GPU的框架上以200ms的速度運行,在COCO的8-GPU機器上訓(xùn)練需要1到2天的時間,我們認(rèn)為訓(xùn)練和測試速度、框架的靈活性以及精確性的改進(jìn)會有益于未來的實例分割工作。

          圖 2 Mask R-CNN在COCO 測試集合中的結(jié)果展示。這些結(jié)果基于ResNet101,在 5 fps 的速度下實現(xiàn)了 35.7 的 mask AP。圖中以不同的顏色表示不同的掩碼,圖中也顯示了邊界框、類別的置信度。

            相關(guān)概念解釋  

          • R-CNN:基于地區(qū)的CNN(Region-based CNN),簡稱為R-CNN方法,它處理邊界框中目標(biāo)探測工作的原理是將區(qū)域理解為多個可管理的潛在實例區(qū)域,并評估每個RoI的卷積網(wǎng)絡(luò)。R-CNN之后被延展到可以適用RoIPool來得到特征地圖上的RoIs,這大大提高了框架的速度和精確度。通過使用Region Proposal Network(RPN)來學(xué)習(xí)注意力工作機制,研究人員得到了更先進(jìn)的FasterR-CNN框架,F(xiàn)aster R-CNN以其靈活性和魯棒性的優(yōu)越性成為目前集中基準(zhǔn)的主導(dǎo)框架。

          • 實例分割(Instance Segmentation):基于R-CNN方法的有效性,很多實例分割的研究都是基于對分割方法的建議,目前最新的進(jìn)步是Li(2016)等人在其論文“Fully convolutional instance-aware semantic segmentation”中提出的“完全卷積實例分割”方法。更詳細(xì)的分割方法論述請參見原文。

            Mask R-CNN介紹  

          Mask R-CNN擁有簡潔明了的思想:對于Faster R-CNN來說,對于每個目標(biāo)對象,它有兩個輸出,一個是類標(biāo)簽(classlabel),一個是邊界框的抵消值(bounding-box offset),在此基礎(chǔ)上,Mask R-CNN方法增加了第三個分支的輸出:目標(biāo)掩碼。目標(biāo)掩碼與已有的class和box輸出的不同在于它需要對目標(biāo)的空間布局有一個更精細(xì)的提取。接下來,我們詳細(xì)介紹Mask R-CNN的主要元素,包括Fast/Faster R-CNN缺失的像素對齊(pixel-to pixel alignment)。

            Mask R-CNN的工作機理  

          Mask R-CNN 使用了與Faster R-CNN相通的兩階段流程,第一階段叫做RPN(Region Proposal Network),此步驟提出了候選對象邊界框。第二階段本質(zhì)上就是FastR-CNN,它使用來自候選框架中的RoIPool來提取特征并進(jìn)行分類和邊界框回歸,但Mask R-CNN更進(jìn)一步的是為每個RoI生成了一個二元掩碼,我們推薦讀者進(jìn)一步閱讀Huang(2016)等人發(fā)表的“Speed/accuracy trade-offs for modern convolutional object detectors”論文詳細(xì)對比Faster R-CNN和其他框架的不同。

          掩碼將一個對象的空間布局進(jìn)行了編碼,與類標(biāo)簽或框架不同的是,Mast R-CNN可以通過卷積的像素對齊來使用掩碼提取空間結(jié)構(gòu)。

          ROIAlign:ROIPool是從每個ROI中提取特征圖(例如7*7)的標(biāo)準(zhǔn)操作。

          網(wǎng)絡(luò)架構(gòu)(Network Architecture):為了證明Mast R-CNN的普遍性,我們將Mask R-CNN的多個構(gòu)架實例化,為了區(qū)分不同的架構(gòu),文中展示了卷積的主干架構(gòu)(backbone architecture),該架構(gòu)用于提取整張圖片的特征;頭架構(gòu)(headarchitecture),用于邊框識別(分類和回歸)以及每個RoI的掩碼預(yù)測。


          圖 3 Head框架介紹:我們拓展了兩種現(xiàn)有的Faster R-CNN頭框架。左/右的圖分別展示了He等人(2016)年提出的ResNetC4/Lin等人(2016)年提出的FPN的主干框架,在這兩個框架中都加入了掩碼的分支。圖中的數(shù)字代表了空間像素和信道,箭頭表示卷積(conv)、去卷積(deconv)或全連接層(fc),具體情況可以實際推斷(卷積會保持空間維度,去卷積會增加空間維度)。輸出卷積是1x1之外,其他都是3x3,去卷積是2x2,步幅為2.我們再隱藏層中使用了Nair和Hinton(2010)提出的ReLU修正線性單元技術(shù)。在左圖中,rest5表示ResNet的第五階段,為了簡明起見,我們對架構(gòu)進(jìn)行了修改,將第1層卷積層放在一個7x7的RoI上運行,步幅為1(而不是在He等人在“圖片認(rèn)知中的深度剩余學(xué)習(xí)”研究中使用的14x14/步幅為2);右圖中的‘x4’代表了4個連續(xù)卷積的堆疊。

            相關(guān)實驗結(jié)果  

          實例分割

          我們將Mask R-CNN的方法與已有的方法進(jìn)行了對比,在所有實驗中使用了COCO數(shù)據(jù)集。

          圖 4在COCO測試圖片上使用Mask R-CNN的其他結(jié)果,使用了35.7掩碼AP,ResNet--101-FPN,運行速度是5fps。

          我們的實驗在COCO數(shù)據(jù)集上進(jìn)行的測試,標(biāo)準(zhǔn)COCO測度包括AP(IoU閾值的平均值)、AP50、AP75和APs、APM、APL(不同規(guī)模的AP),如非特殊注明,AP是通過掩碼IoU來估計得到。表1是Mask R-CNN與現(xiàn)有的實例分割方法對比的結(jié)果,圖2和圖4都是Mask R-CNN輸出的可視化結(jié)果,圖5是將Mask R--CNN基準(zhǔn)與FCIS 對比結(jié)果,F(xiàn)CIS 顯示出其會受到實例分割基礎(chǔ)性偽影的影響,而Mask R-CNN并不會出現(xiàn)這種情況。

          表格 1實例分割結(jié)果:表中記錄了將Mask R-CNN與其他實例分割方法對比得到的結(jié)果。我們的模型表現(xiàn)優(yōu)于所有同類的模型。MNC和FCIS分別是COCO 2015和2016分割挑戰(zhàn)賽的冠軍。Mask R-CNN表現(xiàn)優(yōu)于更復(fù)雜的FCIS ,F(xiàn)CIS 包括多規(guī)模的訓(xùn)練/測試、水平翻轉(zhuǎn)測試和OHEM。所有的都是單模型結(jié)果。


          圖 5 FCIS (上)對比Mask R-CNN(下,ResNet-101-FPN),F(xiàn)CIS在重合物體問題上會出現(xiàn)系統(tǒng)性偽影(systematic artifacts)。

          研究人員將Mask R-CNN進(jìn)行了多項測試,結(jié)果如下表2所示:

          表格 2 Mask R-CNN的Ablations實驗結(jié)果,模型在trainval35k、minival上測試,并匯報了基于mask AP結(jié)果。

          • 表2(a)Backbone架構(gòu):更好的backbone能夠帶來期望的收獲:更深入的網(wǎng)絡(luò)效果更好、FPN表現(xiàn)超過了C4的特征,ResNeXt在ResNet基礎(chǔ)上進(jìn)行了改善。

          • 表2(b)多項式對比獨立掩碼(ResNet-50-C4)結(jié)果:通過每個類的二元掩碼(sigmoid)進(jìn)行的分解Decoupling對比多項式掩碼(softmax)有更好的表現(xiàn)。

          • 表2(c)展示了RoIAlign(ResNet-50-C4)的結(jié)果:使用不同RoI層的掩碼結(jié)果。我們的RoIAlign層提高了AP ~3 points,提高了AP75 ~5 points。使用合適的對齊(alignment)方法改善的原因之一。

          • 表2(d)RoIAlign(ResNet-50-C5, stride 32)展示的是基于large-stride特征的掩碼水平和框水平的AP。比stride-16特征(如表2c所示),這里出現(xiàn)的對齊失誤更嚴(yán)重,因而造成了大量的精確誤差。

          • 表2(e)掩碼分支(ResNet-50-FPN):完全卷積網(wǎng)絡(luò)(Fully convolutionalnetworks, FCN)對比多層感知器(MLP,全連接)進(jìn)行掩碼預(yù)測。FCNs利用編碼空間布局改善了結(jié)果。

          表格 3目標(biāo)檢測:在test-dev上的單模型(邊界框 AP)對比其他模型的結(jié)果。使用ResNet-101-FPN的Mask R-CNN結(jié)果比其他同類模型(這些模型忽略了掩碼輸出問題)表現(xiàn)更好,Mask R-CNN的好結(jié)果受益于使用了RoIAlign( 1.1 APbb)、多任務(wù)訓(xùn)練( 0.9 APbb)和ResNeXt-101( 1.6 APbb)。

          圖 6在COCO test上使用Mask R-CNN(ResNet-50-FPN)的關(guān)鍵點測試結(jié)果,利用相同的模型預(yù)測得到了人物分割掩碼。此模型有63.1的關(guān)鍵點掩碼,運行速度為5 fps。

          利用Mask R-CNN也可以延用到人物姿態(tài)估計,作者進(jìn)行了相關(guān)實驗,表4是實驗結(jié)果。

          表格 4在COCO test-dev上的關(guān)鍵點探測AP,我們用的模型是ResNet-50-FPN,一個單一的模型,運行速度是5fps,CMU-Pose 是2016年的冠軍模型,使用了多層測試和后處理的CPM,利用目標(biāo)探測過濾,以及累計的~5 points:G-RMI利用COCO plus MPII進(jìn)行訓(xùn)練,使用了兩個模型(Inception-ResNet-v2 ResNet-101),此模型使用了更多的數(shù)據(jù),因此跟Mask R-CNN不能直接比較。

          考慮到Mask-CNN模型對于提取約束框、掩碼和關(guān)鍵點的有效性,我們期待它是一個對于實例水平任務(wù)來說更有效的框架,Mask-CNN可以泛化到更多的實例層(instance level)的識別工作,并可以延展到更復(fù)雜的任務(wù)。

          論文地址:https://arxiv.org/pdf/1703.06870.pdf

          論文參考文獻(xiàn):


          本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          收藏 | 使用Mask-RCNN在實例分割應(yīng)用中克服過擬合
          能同時做三個分割任務(wù)的模型,性能和效率優(yōu)于MaskFormer!Meta&UIUC提出通用分割模型,性能優(yōu)于任務(wù)特定模型!開源!
          DL之MaskR-CNN:Mask R-CNN算法的簡介(論文介紹)、架構(gòu)詳解、案例應(yīng)用等配圖集合之詳細(xì)攻略
          Mask R
          SWideRNet:全景分割新標(biāo)桿!
          換個dataloader函數(shù), COCO提升3mAP ,上海交大MVIG團隊提出InstaBoost...
          更多類似文章 >>
          生活服務(wù)
          分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權(quán)!
          如果VIP功能使用有故障,
          可點擊這里聯(lián)系客服!

          聯(lián)系客服