湯曉鷗:人工智能的中國(guó)式文藝復(fù)興

新興科技峰會(huì)上,香港中文大學(xué)教授,商湯科技聯(lián)合創(chuàng)始人湯曉鷗照例以幽默的曬娃開(kāi)場(chǎng),介紹了商湯科技在視覺(jué)方面的研究,尤其是在視頻搜索方面的研究成果。據(jù)湯曉鷗介紹,人工智能軟件如今可進(jìn)行基于內(nèi)容的視頻搜索和基于自然語(yǔ)言的搜索。人工智能還可以把視頻分析成自然語(yǔ)言。

“Google是在教機(jī)器來(lái)下圍棋,而現(xiàn)在我們來(lái)教機(jī)器代替人看電影。我們讓機(jī)器來(lái)做下棋,看電影,玩游戲這些有趣的事情,然后我們?nèi)祟愔回?fù)責(zé)給機(jī)器充充電,維修和保養(yǎng)就行了”湯曉鷗打趣地說(shuō)。

以下為湯曉鷗教授的演講全文,略經(jīng)編輯:

人工智能的中國(guó)式文藝復(fù)興

Ladies and Gentlemen, Good morning. Sorry I will conduct my entire talk in Chinese, in東北Chinese. 今天我講的題目是人工智能的中國(guó)式文藝復(fù)興,這個(gè)題目我在上海講過(guò)一次,我這個(gè)人不太喜歡重復(fù)自己,于是我又想了一個(gè)新的題目,叫人工智能的中國(guó)式十月革命。

言歸正傳,我每次演講,都是從這張照片開(kāi)始,有兩個(gè)原因,第一,這是我兒子;第二,他長(zhǎng)得漂亮。今天又多了一個(gè)更名正言順的原因:在座有很多MIT的教授,我兒子再過(guò)四、五年就要申請(qǐng)大學(xué)了,我想提前讓教授們認(rèn)識(shí)一下我兒子,幫助他將來(lái)申請(qǐng)。我想我長(zhǎng)這樣都可以進(jìn)MIT, 他這么帥,應(yīng)該沒(méi)問(wèn)題。雖然他學(xué)習(xí)成績(jī)很一般,而且不是一般的一般。

再一次言歸正傳,我想大部分中國(guó)人都應(yīng)該知道這部電影——《戰(zhàn)狼》。一下子賺了56億。這在15、20年前是不可能的;那時(shí)候中國(guó)的一部電影是不會(huì)賺這么多錢的。這有很多原因,其中一個(gè)非常重要的原因就是今天我們都愿意花錢去電影院看電影了,而15年前、20年前,很多人會(huì)去買盜版的VCD,或者去網(wǎng)上下載一個(gè)盜版。如果這樣,導(dǎo)演和演員也就沒(méi)有動(dòng)力再繼續(xù)堅(jiān)持下去了。今天中國(guó)電影的成果最重要的推動(dòng)力就是我們對(duì)原創(chuàng)和版權(quán)的尊重。

我們現(xiàn)在不是只有一部電影這樣成功,比如這部《羞羞的鐵拳》羞羞的就賺了22億,《芳華》是一部文藝片,也能達(dá)到14億的票房,《前任3》的票房是18億,平均每個(gè)前任6億,《無(wú)問(wèn)西東》是一部非常有情懷的文藝片,也做到了5億票房。都非常不容易。

所以,對(duì)原創(chuàng)的尊重使得中國(guó)的原創(chuàng)電影不斷往前發(fā)展。在三四十年代,全球電影發(fā)展起來(lái)時(shí),中國(guó)電影并不落后,像《馬路天使》、《一江春水向東流》一點(diǎn)也不輸給好萊塢電影。即使在那個(gè)戰(zhàn)火連天的年代,中國(guó)還能夠拍出這些好電影,一個(gè)原因可能也是當(dāng)時(shí)沒(méi)有DVD和互聯(lián)網(wǎng)來(lái)幫助盜版。

再往前,說(shuō)一下文藝復(fù)興的時(shí)候,如果米開(kāi)朗基羅的這些作品或者任何一個(gè)藝術(shù)品很快有人進(jìn)行復(fù)制,那么他可能也賺不到什么錢,也可能活不下去。所以,對(duì)于原創(chuàng)的尊重也是文藝復(fù)興能真正興起的一個(gè)原因吧。

說(shuō)到原創(chuàng),下面我們來(lái)講講人工智能。一提到人工智能,大家腦海里第一個(gè)想到的公司是哪一家呢?是的,我相信大家都猜到了—那一定是商湯科技。請(qǐng)大家不要笑……這個(gè)笑聲很不禮貌了,我還在臺(tái)上呢。好吧,目前應(yīng)該是谷歌,但是總有一天,我相信人工智能這個(gè)熱潮一定會(huì)過(guò)去的,等這個(gè)熱潮過(guò)去了以后,商湯一定會(huì)成為人工智能最頂級(jí)的公司。

那為什么是谷歌?因?yàn)楣雀枵娴陌奄Y金投入人工智能發(fā)展,2015年的研發(fā)經(jīng)費(fèi)就是120億美金。2014年有一家公司叫DeepMind,只有12個(gè)員工,沒(méi)有賺錢,只是在用深度學(xué)習(xí)玩游戲和下棋,但是谷歌就花了6.6億美金收購(gòu)了這家公司。如果是在中國(guó),大家就會(huì)花幾百萬(wàn)美金把人一個(gè)個(gè)挖過(guò)來(lái),那要便宜得多。但是如果那樣做的話,就不會(huì)有后來(lái)的AlphaGo了。

那么AlphaGo之后大家還能做點(diǎn)什么呢?谷歌又做了AlphaGo 2和AlphaGo Zero,有些公司開(kāi)始學(xué)著AlphaGo下圍棋,還有的公司選擇打撲克牌,這從某種意義上講,都是跟著別人的后面做事情。

真正有意義的事情是在AlphaGo之前你做了什么?有沒(méi)有做什么事情讓機(jī)器在某項(xiàng)任務(wù)上戰(zhàn)勝人類。在AlphaGo之前我們做了一件事情,2014年,我們團(tuán)隊(duì)從事人臉識(shí)別,在全球第一次讓機(jī)器的人臉識(shí)別能力超過(guò)了人的眼睛,像AlphaGo一樣,在某一個(gè)人類定義的單項(xiàng)任務(wù)上,機(jī)器超越了人類。

超越了人類就過(guò)了一條紅線,而過(guò)了這條紅線就可以在工業(yè)上進(jìn)行應(yīng)用了。但是在真正應(yīng)用的時(shí)候,又發(fā)現(xiàn)了很多問(wèn)題,過(guò)了紅線還是不夠用的,從實(shí)驗(yàn)室到大規(guī)模產(chǎn)業(yè)化還有很長(zhǎng)的路要走。2014年,我們用20萬(wàn)人臉來(lái)對(duì)機(jī)器進(jìn)行訓(xùn)練做到了98.5%的準(zhǔn)確率,而人是97.5%;2015年我們用30萬(wàn)人臉進(jìn)行訓(xùn)練,達(dá)到了99.55%的準(zhǔn)確率;2016年,我們用6000萬(wàn)人臉訓(xùn)練可以達(dá)到了百萬(wàn)分之一的誤識(shí)率;2017年,我們用20億人臉訓(xùn)練可以達(dá)到一億分之一的誤識(shí)率,而這樣的誤識(shí)率才可以真正地應(yīng)用到各行各業(yè),包括監(jiān)控、金融、安防、手機(jī)等行業(yè)。所以,我們和高通簽署了全球AI戰(zhàn)略合作協(xié)議。

那么除了人臉識(shí)別,我們現(xiàn)在還做什么?由于時(shí)間關(guān)系,我從我們做的十幾個(gè)行業(yè)里選出一個(gè)來(lái)簡(jiǎn)單介紹一下——視頻分析。

下面這個(gè)技術(shù)是行為檢測(cè),這是里約奧運(yùn)會(huì)的跳水比賽直播,大家可以看到過(guò)了9分鐘也沒(méi)有看到跳水的內(nèi)容,要花一大堆時(shí)間看一些枯燥的內(nèi)容介紹。所以,我們用計(jì)算機(jī)視覺(jué)分析的方法,可以從很長(zhǎng)的一段視頻里把重點(diǎn)內(nèi)容檢測(cè)出來(lái),你就可以直接跳過(guò)沒(méi)有意義的部分,直接看這些有趣的、真正的跳水的鏡頭。

下面這個(gè)演示是基于內(nèi)容的視頻搜索

在電影中我們可以把各種各樣的片段搜索出來(lái),比如說(shuō)你想搜索武打動(dòng)作片段,或者喜劇片段,我們可以直接把它搜索出來(lái),或者你想搜索科幻的,我們可以把科幻的片段搜索出來(lái)。

下面這個(gè)演示是用自然語(yǔ)言描述來(lái)進(jìn)行場(chǎng)景搜索,我們用自然語(yǔ)言來(lái)描述一個(gè)電影中的場(chǎng)景,然后它就可以自動(dòng)根據(jù)你的描述把這個(gè)電影片段搜索出來(lái),比如,我們要搜house of cards中的一個(gè)片段,“Claire和Frank坐在藍(lán)色沙發(fā)上”,大家看到下面這段場(chǎng)景就出來(lái)了。

另外我們不但能把視頻分析出來(lái),還能理解這個(gè)視頻,然后用自然語(yǔ)言描述出來(lái)。比如下面這些運(yùn)動(dòng)視頻,機(jī)器就可以像解說(shuō)員一樣來(lái)描述運(yùn)動(dòng)場(chǎng)上發(fā)生的事情。

IJCV是我們這個(gè)領(lǐng)域的兩大頂級(jí)雜志之一,作為IJCV的主編,我會(huì)在每年的ICCV和CVPR兩個(gè)計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議上,主辦IJCV Night晚會(huì),邀請(qǐng)幾百位頂級(jí)學(xué)者參加。去年10月份,我們?cè)谕崴沟腖ido酒店舉辦了這個(gè)晚會(huì)。

上世紀(jì)的一部美國(guó)電影《美國(guó)往事》就是在這個(gè)酒店拍攝的,下面這個(gè)演示里我們把電影場(chǎng)景里的所有物體都檢測(cè)出來(lái),演員是哪一個(gè)演員,他穿的是什么衣服,這個(gè)場(chǎng)景是在餐廳里,所有的桌子、花、椅子全部能夠?qū)崟r(shí)的自動(dòng)檢測(cè)出來(lái),這樣的技術(shù)在以前是非常難的,但是現(xiàn)在我們都可以做到了。

再回頭來(lái)看我們?nèi)绾斡眠@些技術(shù)來(lái)分析前面提到的電影《戰(zhàn)狼》和《羞羞的鐵拳》,我們通過(guò)分析這些演員的動(dòng)作和他們之間的關(guān)系,可以分析出來(lái)在不同的場(chǎng)景之下,這兩個(gè)演員是誰(shuí),在做什么,這個(gè)片段是什么類的情節(jié)。

同時(shí),我們可以識(shí)別每一幀情節(jié)分類,每一個(gè)鏡頭是打斗場(chǎng)景還是戀愛(ài)場(chǎng)景。我們也可以把一個(gè)電影最精彩的鏡頭提取出來(lái),大家可以挑選比如動(dòng)作的精彩鏡頭、感情戲的精彩鏡頭、悲劇的精彩鏡頭等等。

那么總結(jié)起來(lái),我們?cè)谧鍪裁茨兀课覀兪窃诮虣C(jī)器看電影,一開(kāi)始我們是教機(jī)器來(lái)識(shí)別人臉,Google是在教機(jī)器來(lái)下圍棋,而現(xiàn)在我們來(lái)教機(jī)器代替人看電影。這個(gè)感覺(jué)有點(diǎn)怪,我們讓機(jī)器來(lái)做下棋,看電影,玩游戲這些有趣的事情,然后我們?nèi)祟愔回?fù)責(zé)給機(jī)器充充電,維修和保養(yǎng)。

我覺(jué)得大家聽(tīng)了這個(gè)一定覺(jué)得很可笑。實(shí)際上所有的任務(wù),都是我們?nèi)税才沤o機(jī)器做的,機(jī)器是按照我們的指令在做事情,不存在機(jī)器控制人類這樣的事情,AI的真正目的是幫助人類,幫助我們提高生產(chǎn)效率。

最后給年輕人留下兩句話:

第一句,電影一定要自己親自去看。

第二句,AI這個(gè)詞在中國(guó)拼音翻譯過(guò)來(lái)就是“愛(ài)”,所以談戀愛(ài)也要自己親自去談,否則你就不止“前任3”了,很有可能“前任4”、“前任5”了。

謝謝大家!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2018-01-29
湯曉鷗:人工智能的中國(guó)式文藝復(fù)興
新興科技峰會(huì)上,香港中文大學(xué)教授,商湯科技聯(lián)合創(chuàng)始人湯曉鷗照例以幽默的曬娃開(kāi)場(chǎng),介紹了商湯科技在視覺(jué)方面的研究,尤其是在視頻搜索方面的研究成果。

長(zhǎng)按掃碼 閱讀全文