AI 技術在理解層和決策層中賦能自動駕駛
自動駕駛是一種類人駕駛,即計算機模擬人類的駕駛行為,其功能的實現(xiàn)同樣分為感知、理解、決策和執(zhí)行四個層次,由各類傳感器、ECU和執(zhí)行器來實現(xiàn)。
在整個自動駕駛實現(xiàn)的流程中,1)感知層主要依賴激光雷達和攝像頭等傳感器設備所采集的信息感知汽車周圍環(huán)境,以硬件設備的精確度、可靠性為主要的衡量標準。2)執(zhí)行層通過汽車執(zhí)行器,包括油門、轉向和制動(剎車)等,實現(xiàn)車輛決策層輸出的加速、轉向和制動等決策,主要依靠機械技術實現(xiàn)。3)AI技術主要應用于理解層和決策層,擔任駕駛汽車“大腦”的角色。
理解層對感知層數(shù)據(jù)進行解析,AI 算法技術優(yōu)勢盡現(xiàn)
依據(jù)感知層傳感器的不同,理解層主要完成兩個任務:車輛的高精度定位,以及物體識別和追蹤。
高精度定位任務的實現(xiàn)主要是通過GPS或視覺的算法實現(xiàn)非常精準的車輛定位,目前主要的技術路線有三種:慣性傳感器(IMU)和GPS定位、基于視覺里程計算法定位、基于雷達的定位。
AI 算法在理解層最主要的應用是物體的識別和追蹤。物體跟蹤和識別包括靜態(tài)物體識別和動態(tài)物體識別,對于動態(tài)物體還需要對其軌跡進行追蹤,基于追蹤的結果預測其下一步的位臵,計算出安全的行車空間。自動駕駛車輛需要實時進行多個物體的識別和追蹤,典型的物體包括車輛、行人、自行車等。
激光雷達和計算機視覺是實現(xiàn)物體識別/跟蹤的兩種途徑,Google 和Tesla分別代表了這兩種不同的技術路線。
激光雷達生成的點云數(shù)據(jù)包含物體的3D 輪廓信息,同時通過強度掃描成像獲取物體的反射率,因此可以輕易分辨出草地,樹木,建筑物,路燈,混凝土,車輛等。識別軟件算法簡單,很容易達到實時性的要求。
計算機視覺的方法是利用深度學習對攝像頭圖像進行處理,從像素層面的顏色、偏移和距離信息提取物體層面的空間位臵(立體視覺法)和運動軌跡(光流法)?;谝曈X的物體識別和跟蹤是當前的研究熱點,但是總體來說輸出一般是有噪音,如物體的識別有可能不穩(wěn)定,可能有短暫誤識別等。
決策層如何應對復雜情形是自動駕駛的關鍵瓶頸
在理解層的基礎上,決策層解決的問題是如何控制汽車行為以達到駕駛目標。在一個具有障礙物并且動態(tài)變化的環(huán)境中,按照一定的評價條件尋找一條從起始狀態(tài)到目標狀態(tài)的無碰撞路徑。自動駕駛汽車的決策包括全局性導航規(guī)劃、駕駛行為決策和運動軌跡規(guī)劃。1)全局導航規(guī)劃在已知電子地圖、路網(wǎng)以及宏觀交通信息等先驗信息下,根據(jù)某優(yōu)化目標,選擇不同的道路。2)駕駛行為決策根據(jù)當前交通狀況、交通法規(guī)、結構化道路約束,決定車輛的目標位臵,抽象化為不同的駕駛行為,如變換車道、路口轉向等。3)運動軌跡規(guī)劃是基于駕駛行為決策,躲避障礙物,對到達目標位臵的路線進行規(guī)劃。
基于規(guī)則的傳統(tǒng)算法,在應對復雜情形下的決策仍存在挑戰(zhàn)。道路上的交通參與者(車輛、行人、自行車等)的狀態(tài)和意圖具有不確定性,決策算法需要在這樣的環(huán)境下,以較短的時間進行行為決策,無疑是個技術難點。當前自動駕駛的決策算法多基于規(guī)則,如有限狀態(tài)機算法、決策樹等算法等。需要開發(fā)者利用專業(yè)知識對特定問題進行抽象和建模,實際上這種方式缺乏靈活性,特別是在復雜情形下,交通參與者的不確定性更高,算法更是難以做到面面俱到。
強化學習在自動駕駛決策層具有應用前景。強化學習的目的是通過和環(huán)境交互學習到如何在相應的觀測中采取最優(yōu)行為。行為的好壞可以通過環(huán)境給的獎勵來確定。不同的環(huán)境有不同的觀測和獎勵。例如,駕駛中環(huán)境觀測是攝像頭和激光雷達采集到的周圍環(huán)境的圖像和點云,以及其他的傳感器的輸出。駕駛中的環(huán)境的獎勵根據(jù)任務的不同,可以通過到達終點的速度、舒適度和安全性等指標確定。當前增強學習的算法在自動駕駛汽車決策上的研究還比較初步,有試錯次數(shù)多、算法可解釋性差等弱點。
深度學習算法在自動駕駛中廣泛應用,端到端自動駕駛仍具挑戰(zhàn)
車輛的道路行駛環(huán)境非常復雜,需要處理大量非結構化數(shù)據(jù)。深度學習算法能夠高效的處理非結構化數(shù)據(jù),并自動地從訓練樣本中學習特征,當訓練樣本足夠大時,算法能夠處理遇到的新的狀況以應對復雜決策問題。以基本的車輛識別問題為例,在用足夠多的汽車圖像對算法進行訓練后,算法具備了識別汽車的能力。
深度學習在自動駕駛中的應用可以分為兩個學派:端到端式(End-to-End architecture)和問題拆解式(SemanticAbstraction)。與人類相比,在端到端式的構架中,一個DNN網(wǎng)絡模擬了人的整個駕駛行為;而在問題拆解式的構架中,每個DNN網(wǎng)絡僅模擬了人的一部分駕駛行為。
端對端式不需要人工將問題進行拆解,只需要一個深度神經(jīng)網(wǎng)絡(DNN),在經(jīng)過訓練后,基于傳感器的輸入信息(如照片),直接對車輛的加減速和轉向等進行控制。
問題拆解式需要人工將問題進行拆解,分別訓練多個DNN網(wǎng)絡,實現(xiàn)諸如車輛識別、道路識別、交通信號燈識別等功能。然后基于各個DNN網(wǎng)絡的輸出,再對車輛的加減速和轉向進行控制。
目前,問題拆解式深度學習在自動駕駛領域得到廣泛的應用,主要是進行圖像識別。如識別行駛途中遇到的車輛、行人、地上的交通標志線、交通信號燈等。在KITTI2數(shù)據(jù)集上,排名第一的車輛識別算法已經(jīng)能夠達到92.65%的準確率3。以色列Mobileye是這個領域的領軍人物,其推出的基于攝像頭的圖像識別解決方案EyeQ得到了業(yè)內(nèi)的認可,被10多家汽車制造商超過100種車型所采用。眾多創(chuàng)業(yè)公司也試圖從這個角度切入自動駕駛領域,提供圖像識別算法,如商湯科技、圖森互聯(lián)、地平線科技等。
NVIDIA在測試車上通過端到端式的深度學習實現(xiàn)了對車輛轉向的控制,百度在2017年CES上推出了開源的端對端的自動駕駛平臺Road Hackers及訓練數(shù)據(jù)。目前端到端方案需要大量的數(shù)據(jù)進行模型訓練(模型參數(shù)更多),算法的可解釋性變差,難以進行錯誤排查,在可靠性上也存在一定問題,仍處在較為初級的階段。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )