極客網(wǎng) 北京時(shí)間12月19日下午消息,百度首席科學(xué)家吳恩達(dá)今天宣布,該公司已經(jīng)在語(yǔ)音識(shí)別領(lǐng)域取得重大突破,語(yǔ)音識(shí)別效果超過(guò)了谷歌和蘋(píng)果。
當(dāng)人工智能專(zhuān)家吳恩達(dá)今年5月出任百度首席科學(xué)家時(shí),他對(duì)他和他的團(tuán)隊(duì)可能在加州桑尼韋爾新開(kāi)設(shè)的實(shí)驗(yàn)室中開(kāi)展什么項(xiàng)目,還顯得有些謹(jǐn)慎。不過(guò),他還是禁不住披露,更加先進(jìn)的語(yǔ)音識(shí)別技術(shù)將成為智能手機(jī)時(shí)代的關(guān)鍵。
今天,百度披露了這位谷歌前研究員、斯坦福教授和Coursera聯(lián)合創(chuàng)始人的初步研究成果。在康奈爾大學(xué)圖書(shū)館的arXiv.org網(wǎng)站上發(fā)表的一篇論文中,吳恩達(dá)和阿瓦尼·哈努恩(Awani Hannun)領(lǐng)導(dǎo)的百度研究團(tuán)隊(duì)的10名成員宣布,他們開(kāi)發(fā)出了一種更加精準(zhǔn)的語(yǔ)音識(shí)別技術(shù)——這項(xiàng)功能對(duì)蘋(píng)果Siri和谷歌語(yǔ)音搜索的重要性正在與日俱增。吳恩達(dá)表示,按照語(yǔ)音識(shí)別系統(tǒng)的標(biāo)準(zhǔn)測(cè)試來(lái)看,百度的Deep Speech語(yǔ)音識(shí)別技術(shù)已經(jīng)超過(guò)了谷歌和蘋(píng)果。
具體而言,Deep Speech在嘈雜環(huán)境中的表現(xiàn)好于同類(lèi)技術(shù),例如汽車(chē)內(nèi)或人群中。由于可以大大提升實(shí)際的使用效果,因此這項(xiàng)技術(shù)顯然十分關(guān)鍵。吳恩達(dá)表示,在嘈雜的背景中進(jìn)行測(cè)試的結(jié)果顯示,Deep Speech的錯(cuò)誤率比谷歌語(yǔ)音API、wit.ai、微軟必應(yīng)語(yǔ)音和蘋(píng)果Dictation低了10%。
百度還提供了兩位大學(xué)教授發(fā)表的正面評(píng)論。“百度研究院的這項(xiàng)最新成果有望顛覆今后的語(yǔ)音識(shí)別效果。”卡內(nèi)基梅隆大學(xué)工程學(xué)助理研究教授伊恩·雷恩(Ian Lane)在新聞稿中說(shuō)。蘋(píng)果和谷歌尚未對(duì)此置評(píng)。
與其他語(yǔ)音識(shí)別系統(tǒng)一樣,百度這項(xiàng)技術(shù)的基礎(chǔ)也是一個(gè)名為“深度學(xué)習(xí)”的人工智能分支。這款軟件試圖以非常原始的方式模擬大腦新皮層的神經(jīng)元活動(dòng)——約有80%的大腦活動(dòng)發(fā)生在那里,所以深度學(xué)習(xí)系統(tǒng)可以識(shí)別出數(shù)字形態(tài)的聲音、圖像和其他數(shù)據(jù)。“第一代深度學(xué)習(xí)語(yǔ)音識(shí)別技術(shù)已經(jīng)達(dá)到極限。”吳恩達(dá)說(shuō)。
百度團(tuán)隊(duì)搜集了9600人的7000小時(shí)語(yǔ)音內(nèi)容,多數(shù)都是在安靜環(huán)境下搜集的——但測(cè)試者有時(shí)也會(huì)佩戴播放嘈雜背景音的耳機(jī),使得他們就像在嘈雜環(huán)境中一樣改變語(yǔ)調(diào)。他們后來(lái)使用名為“疊加”的物理學(xué)定律增加了15種噪音,包括酒店、汽車(chē)和地鐵中的環(huán)境噪音。這相當(dāng)于把樣本數(shù)據(jù)擴(kuò)大到10萬(wàn)小時(shí)。隨后,他們讓系統(tǒng)學(xué)會(huì)在各種噪音中識(shí)別語(yǔ)音。
吳恩達(dá)表示,這遠(yuǎn)比目前的語(yǔ)音識(shí)別系統(tǒng)簡(jiǎn)單得多。他們使用了一系列模塊來(lái)分析音素和其他語(yǔ)音內(nèi)容。這通常需要通過(guò)名為“隱馬可夫模型”的統(tǒng)計(jì)概率系統(tǒng)來(lái)手工設(shè)計(jì)模塊,這就需要大量人手來(lái)進(jìn)行校準(zhǔn)。而百度的系統(tǒng)用深度學(xué)習(xí)算法取代了這些模型。這種算法可以在遞歸神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,從而大大降低了系統(tǒng)的復(fù)雜性。
但真正令這種模式奏效的是強(qiáng)大的新型計(jì)算機(jī)系統(tǒng),其中配備了很多Nvidia的GPU。GPU在個(gè)人電腦中用來(lái)加速圖形。由于采用并行設(shè)計(jì),因此它們?cè)谟?xùn)練識(shí)別模型時(shí)的速度和成本遠(yuǎn)好于標(biāo)準(zhǔn)的電腦處理器——大約比吳恩達(dá)在斯坦福和谷歌時(shí)使用的系統(tǒng)快40倍。“算法很重要,但成功有很大一部分歸因于可擴(kuò)展性。”他說(shuō),這既包括電腦系統(tǒng)的可擴(kuò)展性,也包括其數(shù)據(jù)處理量的可擴(kuò)展性。
倘若達(dá)不到這種速度,就無(wú)法迅速分析各種數(shù)據(jù)。吳恩達(dá)表示,該系統(tǒng)的復(fù)雜程度超過(guò)當(dāng)今的其他GPU系統(tǒng)。“我們已經(jīng)進(jìn)入語(yǔ)音識(shí)別2.0時(shí)代,”他說(shuō),“現(xiàn)在才剛剛開(kāi)始。”
吳恩達(dá)認(rèn)為,隨著用戶越來(lái)越偏向語(yǔ)音指令,而拋棄文字模式,因此語(yǔ)音識(shí)別的重要性還將與日俱增。“讓他們對(duì)我們說(shuō)話是關(guān)鍵。”他列舉了中國(guó)最近的一條搜索命令:“你好,百度。我昨天中午街邊吃了面條。明天還賣(mài)不賣(mài)?”吳恩達(dá)承認(rèn),現(xiàn)階段回答這一問(wèn)題的難度非常大,但他認(rèn)為語(yǔ)音技術(shù)的進(jìn)步是關(guān)鍵。
物聯(lián)網(wǎng)的發(fā)展也是關(guān)鍵所在,它將把所有的“啞巴”設(shè)備引入線上。他認(rèn)為,當(dāng)他的孫子得知我們?nèi)缃袷褂玫碾娨暀C(jī)和微波爐都不支持語(yǔ)音指令時(shí),可能會(huì)感到十分驚訝。“語(yǔ)音是物聯(lián)網(wǎng)的關(guān)鍵技術(shù)。”他說(shuō)。
吳恩達(dá)拒絕透露百度需要多久才能將這項(xiàng)新技術(shù)整合到搜索和其他服務(wù)中。但在被問(wèn)及這是否需要花費(fèi)很多年時(shí),他卻很快回應(yīng)道:“肯定不需要!”所以,這項(xiàng)技術(shù)有望在明年投入使用。這項(xiàng)技術(shù)可能應(yīng)用到百度Cool Box中,為用戶提供語(yǔ)音音樂(lè)搜索服務(wù)。
吳恩達(dá)的團(tuán)隊(duì)成員約有30人,明年還將翻番,他們的目標(biāo)是幫助百度躋身全球頂尖互聯(lián)網(wǎng)公司之列。雖然目前主要服務(wù)于中國(guó)市場(chǎng),但該公司卻計(jì)劃向全球擴(kuò)張,包括開(kāi)發(fā)世界級(jí)的語(yǔ)音識(shí)別、翻譯和其他功能。(鼎宏)
- 蔚來(lái)新ET5/ET5T/EC6冠軍紀(jì)念版上市:運(yùn)動(dòng)化調(diào)教+專(zhuān)屬套件,價(jià)格親民!
- 華為鴻蒙智駕半年行駛里程超16億公里:80萬(wàn)輛車(chē)見(jiàn)證智能出行新篇章
- 領(lǐng)克10 EM-P智能電混亮眼登場(chǎng):四驅(qū)+激光雷達(dá),科技與性能的完美融合
- 蘋(píng)果自研云芯大突破:降降亞馬遜云高價(jià),重塑行業(yè)格局
- iPhone新功能遭熱議:制冷模式能否拯救炎炎夏日?
- Lumo AI合規(guī)助手:讓奇富科技告別繁瑣合規(guī)管理,效率提升20倍
- 現(xiàn)代汽車(chē)揭幕韓國(guó)氫能新篇章:2028投產(chǎn)氫燃料工廠,綠色未來(lái)已觸手可及
- 揭秘ChatGPT名稱由來(lái):OpenAI高層道出背后故事,人工智能如何從無(wú)到有?
- 格力高管回應(yīng)董明珠掉出《財(cái)富》榜單:影響力不等于財(cái)富,傳奇仍在繼續(xù)
- ASML獨(dú)家披露:EUV光刻機(jī)僅售5臺(tái),Intel悄然轉(zhuǎn)變,光刻機(jī)不再那么重要了
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。