動態(tài)生成掩膜預測網(wǎng)絡生成模型CondInst,助力FCN重奪實例檢測顛峰

實例分割是計算機視覺領域的基礎任務,需要算法預測出圖像中每個實例的掩膜和對應的分類標簽。Mask R-CNN作為一種性能優(yōu)異的算法,在實例分割領域取得了巨大成功,這種兩階段的方法主要依賴于ROI操作來獲取最終的實例掩膜。

而在這篇文章中,作者從全新的角度解決了實例分割問題,來自澳大利亞阿德萊德大學的研究人員在實例條件下提出了動態(tài)實例生成的網(wǎng)絡模型,代替了先前逐個實例的ROI區(qū)域作為預測的輸入。

這種全卷積網(wǎng)絡消除了對于ROI區(qū)域測裁剪操作和特征配準方法,其次由于動態(tài)生成的條件卷積大幅提升了網(wǎng)絡容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實驗表明這種方法無需更長時間的訓練,在COCO數(shù)據(jù)集上取得了比Mask R-CNN更好的結(jié)果,同時在精度和速度上都得到了明顯提升。

實例分割

Mask R-CNN是近幾年來實例分割領域非常重要的突破,它使用了Faster R-CNN來為每個實例預測邊界框,而后針對每個實例利用ROIAlign操作對在特征圖中進行ROI區(qū)域裁剪,最后利用緊湊的全卷積網(wǎng)絡來對每一個實例的掩膜進行預測。

然而這種基于ROI的方法也有著諸多需要克服的困難:

首先ROI一般都是和圖像坐標軸對齊的邊框,當遇到非常規(guī)不規(guī)則物體時框中就會包含較多的背景或者其他實例的部分。雖然可以通過旋轉(zhuǎn)ROI解決這一問題,但隨之而來是更為復雜的計算代價和處理流程;其次為了區(qū)分前景和背景或者其他雜亂的實例,mask端需要堆疊更多的卷積層來獲取更大的感受野,這使得計算量大幅增加;第三由于ROI尺寸各不相同,為了有效利用批(batch)處理計算它們會被重置為相同的大小,這會限制大范圍實例的分辨率。

在計算機視覺領域與實例分割最相近的要數(shù)語義分割了,全卷積網(wǎng)絡FCN在這一任務上取得了巨大的成功。此外FCN同時也在其他逐像素的預測任務上表現(xiàn)優(yōu)異,像圖像去噪、超分辨這類底層圖像處理任務、光流估計和邊緣檢測這類中級任務,單發(fā)目標檢測、單目深度估計和目標計數(shù)這類高級任務都有著FCN的貢獻。但在實例分割任務中幾乎所有的純粹FCN方法都沒有達到最先進的水平。究竟是什么原因讓強大的FCN在實例分割中敗下陣來呢?

研究人員發(fā)現(xiàn)主要的問題在于,網(wǎng)絡對于同一張圖像需要針對不同類別預測出不同的掩膜,這會讓FCN陷入兩難的境地。例如針對兩個人A和B,在圖像中具有相同的外觀和形狀特征,但在預測A的掩膜時網(wǎng)絡需要將B視為背景,這會讓網(wǎng)絡陷入到一定程度的迷茫中。所以ROI才需要將目標區(qū)域特征圖剪切出來。

本質(zhì)上來講,實例分割網(wǎng)絡需要兩種類型的信息:外觀形狀特征信息用于確定目標類別、位置信息用于從同一類中區(qū)分出不同的實例?;赗OI的方法都隱式地編碼了目標實例的位置信息。而這篇文章的方法則探索對對于實例位置敏感的卷積層來嘗試解決目標位置信息問題。

基于這樣的考量,研究人員提出了新的解決方法,來代替標準的、由一系列固定權(quán)重濾波器組成的ConvNet來作為實例預測端針對所有實例進行處理,利用了一種參數(shù)基于待預測實例自適應的網(wǎng)絡結(jié)構(gòu)來進行預測。在動態(tài)濾波器和條件卷積的啟發(fā)下,控制子網(wǎng)絡會針對每一個實例動態(tài)生成mask FCN的網(wǎng)絡參數(shù)(也就是基于帶預測實例的中心區(qū)域來生成),隨后這些參數(shù)實例化為mask FCN用于預測對應實例的掩膜。

其中的思想在于網(wǎng)絡參數(shù)能夠編碼實例的特征、并僅激活這一實例的像素,巧妙地避開了前面提到的問題。得到的條件mask端作用于整個特征圖免去了獲取ROI的操作。這一方法也許在有的人看來會帶來非常多的網(wǎng)絡參數(shù)(由于實例的數(shù)量很多),但研究人員巧妙地利用了動態(tài)生成的濾波器來構(gòu)建緊湊的FCN mask預測端,在提高性能的同時,大幅度減少了計算復雜性。

CondInst

實例分割模型的目標在于通過輸入圖像為圖中的實例預測出對應的掩膜,實例數(shù)量的不確定對于傳統(tǒng)的FCN來說十分困難。本文工作的核心在于,針對圖中待處理的K個實例,模型會動態(tài)生成K個不同的掩膜處理端,每個掩膜處理分支將目標實例的特征包含在了其參數(shù)中。當其作用于特征圖時僅僅會激活實例上的像素用于掩膜預測。下圖顯示了模型的主要架構(gòu):

12下一頁>

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2020-06-11
動態(tài)生成掩膜預測網(wǎng)絡生成模型CondInst,助力FCN重奪實例檢測顛峰
實例分割是計算機視覺領域的基礎任務,需要算法預測出圖像中每個實例的掩膜和對應的分類標簽。

長按掃碼 閱讀全文