CMU RI(卡內基梅隆大學機器人學院)的科學家正研發(fā)一種可以從頭到腳讀取肢體語言的計算機系統(tǒng)。新項目可以實時讀取大規(guī)模人群的多個動作姿勢,這為人與機器交互開辟了新的方式。
目前,與計算機通信主要限于打字,鼠標點擊和屏幕觸摸。雖然語音交互更加普及,但人類主要是用文字交流。社會活動中,半數的人際交往來自肢體語言,沒有肢體語言,互動可能變得困難和費力。
讓電腦讀懂人類的肢體語言是一件棘手的事,包括可以被物體或其他人遮蔽的手部動作。除此之外,雖然大型數據庫存在標注的面部表情和身體位置,但并沒有任何手勢和姿勢。
CMU RI(卡內基·梅隆機器人研究院)副教授Yaser Sheikh領導的團隊攻克了解決此問題一些的方法。其中之一是,通過讓兩個研究生站在攝像機前面,做數千種不同的姿勢和手勢,來為計算機提供更多的數據。
另一個是顛覆了計算機讀取姿勢的常規(guī)方式。計算機不只關注人本身,而是會實時檢測手指的動作,人的手、手臂、腿和臉,并鎖定這些動作和姿勢。據團隊介紹,這對觀眾來說特別有用。
第三部分是使用CMU的Panoptic Studio(用于大規(guī)模社交互動采集的多視角系統(tǒng)),它是一個有兩層樓高,并嵌有500臺攝像機的結構。這使計算機可以從數百個不同角度,一次采集大量的動作數據來用于研究。
機器人博士Hanbyul Joo說:"系統(tǒng)自動標注手的位置,單次拍攝可以讓你采集一個人的500次手部動作。若手太小,無法被大多數相機標注,但是對于這項研究,我們只使用了31臺高清攝像頭,但仍然能夠構建一個龐大的數據集。"
團隊正在努力解決,把2D模型轉換為3D模型,以獲得更好的識別效果。最終的目標是制作一個,允許單個攝像頭和筆記本電腦,從一群人那里讀取姿勢的系統(tǒng)。
當技術成熟時,CMU RI團隊認為它會非常有用,不僅可以讓人們通過簡單的指向與機器進行交互,還可以幫助自動駕駛汽車推斷行人打算何時過馬路,可以用來自動輔助診斷行為障礙,并跟蹤體育運動員的動作,解釋他們在做什么。
系統(tǒng)介紹
硬件:
480個VGA攝像頭,640 x 480分辨率,25 fps,使用硬件時鐘同步 31個高清攝像機,1920 x 1080分辨率,30 fps,使用硬件時鐘同步,與VGA攝像機定時對齊 10個KinectⅡ傳感器。1920 x 1080(RGB),512 x 424(depth),30 fps,它們之間和其他傳感器之間的時序對齊 5臺DLP投影機,與高清攝像機同步
場景與標注:
多人
社會互動群組
3D身體姿勢
3D面部地標
Transcripts + speaker ID
(本文來源于微信公眾號機械雞)
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )