讓計(jì)算機(jī)看懂世界靠譜嗎?智能識(shí)別技術(shù)大行其道

智能識(shí)別技術(shù) 讓計(jì)算機(jī)看懂世界

互聯(lián)網(wǎng)發(fā)展之初受到網(wǎng)絡(luò)帶寬、數(shù)據(jù)存儲(chǔ)等相關(guān)技術(shù)的限制,信息的傳播以單模態(tài)形式為主,如文字報(bào)道、圖像相冊等。進(jìn)入大數(shù)據(jù)時(shí)代,信息的傳播變得豐富多彩,人們從互聯(lián)網(wǎng)中同時(shí)接受圖像、視頻、文本等不同模態(tài)的信息。例如,當(dāng)我們在互聯(lián)網(wǎng)上瀏覽一篇精彩的新聞報(bào)道時(shí),不僅可以看到詳細(xì)的文字描述,還能看到記者在現(xiàn)場拍攝的照片,甚至還有相關(guān)的視頻報(bào)道。這體現(xiàn)了互聯(lián)網(wǎng)數(shù)據(jù)從單模態(tài)到多模態(tài)的轉(zhuǎn)變。

讓計(jì)算機(jī)看懂世界靠譜嗎?智能識(shí)別技術(shù)大行其道

隨著互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)的大量出現(xiàn)和傳播,“管不住”和“用不好”兩大問題也日益突出?!肮懿蛔 笔侵付嗄B(tài)大數(shù)據(jù)中隱藏著大量涉恐、涉暴等有害信息,極大地危害著國家安全和社會(huì)穩(wěn)定,目前還缺乏自動(dòng)的分析與識(shí)別技術(shù)?!坝貌缓谩笔侵脯F(xiàn)有技術(shù)一般是單模態(tài)分析與識(shí)別,僅針對信息有限的單模態(tài)數(shù)據(jù),難以對多模態(tài)數(shù)據(jù)進(jìn)行有效利用。如何讓計(jì)算機(jī)看懂世界,實(shí)現(xiàn)對互聯(lián)網(wǎng)多模態(tài)大數(shù)據(jù)的有效監(jiān)管與利用,是目前急需解決的重大問題。

針對上述問題,北京大學(xué)彭宇新教授團(tuán)隊(duì)在國家自然科學(xué)基金、國家863計(jì)劃、國家科技支撐計(jì)劃等支持下,歷經(jīng)10余年技術(shù)攻關(guān),在圖像視頻概念檢測、視覺目標(biāo)檢測、多模態(tài)數(shù)據(jù)分析與識(shí)別、互聯(lián)網(wǎng)輿情監(jiān)測四個(gè)方面取得了多項(xiàng)重大技術(shù)突破和發(fā)明創(chuàng)新。在2016年北京市科學(xué)技術(shù)獎(jiǎng)評選中,“互聯(lián)網(wǎng)多模態(tài)內(nèi)容分析與識(shí)別關(guān)鍵技術(shù)及應(yīng)用”項(xiàng)目榮獲一等獎(jiǎng)。

突破單模態(tài)分析與識(shí)別技術(shù)

單模態(tài)分析與識(shí)別是突破互聯(lián)網(wǎng)多模態(tài)內(nèi)容識(shí)別的基礎(chǔ)和關(guān)鍵技術(shù)。圖像、視頻和文本是單模態(tài)信息的重要形式,如何使計(jì)算機(jī)能夠自動(dòng)分析與識(shí)別圖像、視頻和文本的內(nèi)容便成為了研究與應(yīng)用的難點(diǎn)問題。

圖像、視頻中一般包含某種語義概念,如籃球比賽、奧運(yùn)會(huì)等;同時(shí)也包含視覺目標(biāo),如行人、汽車、旗幟等。

“雖然人類能夠很容易地識(shí)別與理解這些概念與目標(biāo),但在計(jì)算機(jī)看來,數(shù)字圖像就是由一個(gè)個(gè)像素點(diǎn)構(gòu)成,這樣人類的語義概念及視覺目標(biāo)與計(jì)算機(jī)看到的二進(jìn)制數(shù)值之間就存在難以逾越的‘語義鴻溝’?!北本┐髮W(xué)彭宇新說。

由于圖像、視頻的語義概念比較抽象、視覺目標(biāo)復(fù)雜多變,如“奧運(yùn)會(huì)”這一概念很難從視覺上準(zhǔn)確定義,而“旗幟”等目標(biāo)不具有固定的形態(tài),導(dǎo)致計(jì)算機(jī)自動(dòng)分析與識(shí)別的難度很大。

彭宇新團(tuán)隊(duì)針對圖像視頻概念檢測難題,發(fā)明了基于注意力模型和增量深度學(xué)習(xí)的分類方法,一方面注意力模型能夠定位圖像的顯著性區(qū)域以提高檢測精度;另一方面增量學(xué)習(xí)在新概念增加過程中,能夠利用已經(jīng)學(xué)習(xí)到的知識(shí)加速新知識(shí)學(xué)習(xí),同時(shí)通過動(dòng)態(tài)擴(kuò)容以支持新概念的檢測。該方法使得特定概念的檢測精度突破90%。針對復(fù)雜場景下視覺目標(biāo)檢測問題,發(fā)明了級聯(lián)分類器與極角拓?fù)浼s束相結(jié)合的判別方法,一方面通過級聯(lián)分類器從海量數(shù)據(jù)中快速篩選出可能包含特定目標(biāo)的候選區(qū)域,加快檢測速度;另一方面通過極角拓?fù)浼s束對候選區(qū)域進(jìn)行二次判別,提高檢測精度。該方法提高了低分辨率、形變、仿射變換等復(fù)雜情況下的檢測效果,使得特定視覺目標(biāo)檢測精度突破90%?;谏鲜鲅芯砍晒?,彭宇新教授團(tuán)隊(duì)參加了國際權(quán)威評測TRECVID的視頻高層概念檢測比賽,獲得第一名,參賽隊(duì)伍包括卡內(nèi)基梅隆大學(xué)、牛津大學(xué)、IBM Watson研究中心等國際著名大學(xué)和研究機(jī)構(gòu)。

在文本內(nèi)容分析上,熱點(diǎn)話題檢測與敏感信息發(fā)現(xiàn)是互聯(lián)網(wǎng)輿情監(jiān)測的兩個(gè)主要應(yīng)用需求。熱點(diǎn)話題與敏感信息通常包含特定的人名、地名、機(jī)構(gòu)名等實(shí)體信息,有效地識(shí)別實(shí)體信息是文本內(nèi)容分析的關(guān)鍵。針對上述問題,項(xiàng)目團(tuán)隊(duì)發(fā)明了基于知識(shí)元的多模態(tài)語義分析方法和基于情感觀點(diǎn)的話題追蹤方法,有效解決了互聯(lián)網(wǎng)內(nèi)容的語言規(guī)范性差、噪音大、時(shí)效性高導(dǎo)致實(shí)體難以識(shí)別和利用的問題。在國際權(quán)威評測TREC 2014年和2015年的微博信息檢索比賽中獲得第一名。

12下一頁>

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2017-10-10
讓計(jì)算機(jī)看懂世界靠譜嗎?智能識(shí)別技術(shù)大行其道
智能識(shí)別技術(shù) 讓計(jì)算機(jī)看懂世界互聯(lián)網(wǎng)發(fā)展之初受到網(wǎng)絡(luò)帶寬、數(shù)據(jù)存儲(chǔ)等相關(guān)技術(shù)的限制,信息的傳播以單模態(tài)形式為主,如文字報(bào)道、圖像相冊等。

長按掃碼 閱讀全文