男人到天堂在线a无码,chinese麻豆自制国产,亚洲一卡2卡3卡4卡精品分类

論文：基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測

人閱讀

2020-09-09 15:06:00

相關(guān)關(guān)鍵詞
- 人工智能
- AI

論文原文：RTM3D：Real－timeMonocular3DDetectionfromObject

KeypointsforAutonomousDriving

目前已有的一些 3D 檢測器都是將 3D 邊界框到 2D 邊界框的幾何約束作為重要組件。由于 2D 的邊界框只有四條邊，僅能提供四個(gè)幾何約束，這就導(dǎo)致 2D 檢測器的一點(diǎn)小錯(cuò)誤會極大的影響 3D 檢測器的效果。本文的方法通過預(yù)測圖片中物體 3D 邊界框的九個(gè)關(guān)鍵點(diǎn)，利用 3D 和 2D 透視圖的幾何關(guān)系恢復(fù) 3D 空間中的尺寸、位置和方向。通過這種方法，即使關(guān)鍵點(diǎn)的估計(jì)非常嘈雜，也可以穩(wěn)定地預(yù)測對象的屬性，使我們能夠以較小的架構(gòu)獲得較快的檢測速度。訓(xùn)練的方法僅使用對象的 3D 屬性，而無需外部網(wǎng)絡(luò)或監(jiān)督數(shù)據(jù)。該方法是第一個(gè)用于單眼圖像 3D 檢測的實(shí)時(shí)系統(tǒng)，同時(shí)達(dá)到了 KITTI 基準(zhǔn)的最新性能。代碼將在 https：／／github．com／Banconxuan／RTM3D 上發(fā)布。

論文背景

3D 目標(biāo)檢測是自動駕駛中場景感知和運(yùn)動預(yù)測的基本組件，目前的 3D 檢測器都嚴(yán)重依賴于 3D 雷達(dá)掃描得到的位置信息。但基于雷達(dá)的系統(tǒng)非常昂貴而且不利于編碼現(xiàn)在的車輛形狀。而單目相機(jī)相對便宜更容易應(yīng)用在現(xiàn)實(shí)場景中。本文的研究聚焦于單目 RGB 圖片的 3D 目標(biāo)檢測。

單目 3D 目標(biāo)檢測方法大致可以按照訓(xùn)練數(shù)據(jù)類型被分為兩類，一種利用復(fù)雜的特征，例如實(shí)例分割、車輛形狀先驗(yàn)甚至是深度圖在多階段融合模塊中選擇最佳方案，這些額外的特征需要額外的標(biāo)注工作來訓(xùn)練一些其他的獨(dú)立網(wǎng)絡(luò)，這會消耗大量的運(yùn)算資源；另外一類方法僅將 2D 的邊界框和 3D 物體的屬性作為有監(jiān)督數(shù)據(jù)，在這種情況下，一個(gè)直觀的想法是建立一個(gè)深度回歸網(wǎng)絡(luò)以直接預(yù)測對象的 3D 信息，由于搜索空間較大，這可能會導(dǎo)致性能瓶頸。因此最近有一些工作將 3D 盒頂點(diǎn)的幾何約束應(yīng)用于 2D 盒邊緣以細(xì)化或直接預(yù)測對象參數(shù)。但是，2D 邊界框的四個(gè)邊緣僅對恢復(fù) 3D 邊界框提供了四個(gè)約束，而 3D 邊界框的每個(gè)頂點(diǎn)可能對應(yīng)于 2D 框中的任何邊緣，這需要 4，096 個(gè)相同的計(jì)算才能得出一個(gè)結(jié)果。同時(shí)，當(dāng) 2D 檢測器的預(yù)測甚至有輕微誤差時(shí)，強(qiáng)烈依賴 2D 框會導(dǎo)致 3D 檢測性能急劇下降。因此，大多數(shù)這些方法都利用兩階段檢測器來確保 2D 邊界框預(yù)測的準(zhǔn)確性，這限制了檢測速度的上限。

本文提出了一個(gè)無需依賴 2D 檢測器的一階段單目 3D 檢測器。首先，通過一個(gè)單階段全卷積架構(gòu)預(yù)測 9 個(gè) 2D 關(guān)鍵點(diǎn)，這些關(guān)鍵點(diǎn)包括 3D 邊界框的 8 個(gè)頂點(diǎn)和中心點(diǎn)的投影點(diǎn)，這 9 個(gè)關(guān)鍵點(diǎn)在 3D 邊界框上提供了 18 個(gè)幾何約束。此外，本文還提出了一個(gè)全新的用于關(guān)鍵點(diǎn)檢測的多尺度金字塔，可以通過軟加權(quán)金字塔獲得最終的關(guān)鍵點(diǎn)激活圖。給定 9 個(gè)投影點(diǎn)后，下一步是通過對象的位置、尺寸和方向等從這些 3D 點(diǎn)的角度上進(jìn)行參數(shù)化，使重投影誤差最小。將重投影誤差公式化為 se3 空間中多元方程的形式，可以準(zhǔn)確有效地生成檢測結(jié)果。作者討論了不同先驗(yàn)信息對基于關(guān)鍵點(diǎn)的方法（如尺寸、方向和距離）的影響。獲取此信息的前提條件是不要增加過多的計(jì)算，以免影響最終檢測速度。本文對這些先驗(yàn)?zāi)Ｐ瓦M(jìn)行建模，并提出了一個(gè)整體能量函數(shù)以進(jìn)一步改善 3D 估計(jì)。

本文的主要貢獻(xiàn)有以下幾點(diǎn)：

1．將單目 3D 檢測轉(zhuǎn)化為關(guān)鍵點(diǎn)檢測問題，結(jié)合了幾何約束來更準(zhǔn)確和高效的生成 3D 物體的屬性。

2．提出了一種新穎的單階段多尺度 3D 關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)，該網(wǎng)絡(luò)可為多尺度物體提供準(zhǔn)確的投影點(diǎn)。

3．提出了一個(gè)整體能量函數(shù)，可以共同優(yōu)化先驗(yàn)和 3D 對象信息。

4．根據(jù) KITTI 基準(zhǔn)進(jìn)行評估，本文是第一種僅使用圖像的實(shí)時(shí) 3D 檢測方法，與其他方法在相同的運(yùn)行時(shí)間下對比，具有更高的準(zhǔn)確性。

論文模型

123下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）