Google Brain新成果:一個能夠理解機器思維方式的AI翻譯器

如果一名醫(yī)生告知要進行手術,人們肯定首先希望了解為什么——即便對方不具備任何專業(yè)的醫(yī)學知識,醫(yī)生明確解釋診斷理由仍然極其必要。而人工智能也一樣。

眾所周知,神經(jīng)網(wǎng)絡是出了名的難理解——計算機雖然能夠提出一項解決方案,但卻無法就產(chǎn)生的結論做出解釋?,F(xiàn)在,來自Google Brain團隊的一名研究科學家Been Kim,正在開發(fā)一套“人類翻譯器”,希望構建能夠向任何人做出解釋的AI軟件。

約十年前,人工智能背后的神經(jīng)網(wǎng)絡技術開始快速發(fā)展,影響了從電子郵件到藥物發(fā)明等各個領域,同時表現(xiàn)出越來越強大的學習與數(shù)據(jù)模式識別能力。然而,這種力量本身還帶來了一種不容忽視的警告:一方面,現(xiàn)代深度學習網(wǎng)絡自主學會如何駕駛汽車以及發(fā)現(xiàn)保險欺詐活動具備極高復雜性,同時,也導致其內(nèi)部運作方式幾乎無法被理解——沒錯,就連AI專家也無法破解個中奧秘。因此,如果我們通過訓練神經(jīng)網(wǎng)絡來識別可能存在肝癌、精神分裂癥等疾病風險的患者(例如2015年紐約西奈山醫(yī)院開發(fā)的「Deep Patient」深度病患系統(tǒng)),那么結果就是,我們根本無法準確辨別神經(jīng)網(wǎng)絡實際關注的是數(shù)據(jù)中的哪些特征。這種“知識”全面分布在神經(jīng)網(wǎng)絡的各個層,其中每一層都存在數(shù)百甚至成千上萬個連接。

隨著越來越多行業(yè)試圖通過人工智能技術實現(xiàn)自身決策,這種類似于“黑匣子”的問題已經(jīng)不再是一種技術層面的偏執(zhí),而成為實實在在的基礎性缺陷。美國國防部高級研究計劃局(簡稱DARPA)的“XAI”項目(即可解釋AI)正在積極研究這個問題,這意味著,可解釋性已經(jīng)由機器學習的邊緣化研究轉化為新的探索核心。Kim指出,“人工智能正處于發(fā)展的關鍵時刻,人類正在試圖弄清這項技術是否真能為我們帶來助益。如果我們無法解決這個可解釋性問題,我們將不會繼續(xù)推進這項技術,甚至有可能將其放棄?!?/p>

Kim和谷歌Brain團隊的同事們剛剛開發(fā)出一套名為“概念激活矢量測試(Testing with Concept Activation Vectors,簡稱TCAV)”的系統(tǒng),她將其描述為一種“人類翻譯器”,允許用戶向黑匣子AI詢問某些特定高級概念,從而了解神經(jīng)網(wǎng)絡的推理過程。舉例來說,如果機器學習系統(tǒng)經(jīng)過訓練學會了如何發(fā)現(xiàn)圖像當中的斑馬,那么人們就可以利用TCASV來確定這套系統(tǒng)在做出決策時會賦予“條紋”這一概念怎樣的權重。

TCAV系統(tǒng)最初是在一套經(jīng)過訓練、擁有圖像識別能力的機器學習模型上進行測試的,不過這套系統(tǒng)同時也適用于訓練為文本識別以及對某類數(shù)據(jù)進行可視化處理的模型——例如EEG波形。Kim解釋稱,“這是一套通用而簡單的系統(tǒng),你可以將其接入多種不同的模型當中?!?/p>

我們與Kim談到了可解釋性的具體含義、其用途以及重要意義所在。以下為經(jīng)過編輯與提煉的訪談內(nèi)容。

圖:Google Brain團隊研究科學家Been Kim

問:您的職業(yè)生涯一直專注于機器學習的“可解釋性”。但是,可解釋性究竟意味著什么呢?

Been Kim:可解釋性擁有兩大分支。第一大分支是對科學的可解釋性:如果你將神經(jīng)網(wǎng)絡視為研究對象,那么就可以通過科學實驗以真正理解關于模型的一切細節(jié)——例如其如何做出反應,諸如此類。

可解釋性的第二大分支,也就是我一直主要關注的方向——對負責任人工智能的解釋能力。我們不需要了解模型中的所有細節(jié),但必須通過理解來確定我們能夠以安全的方式使用這種工具,這也正是我們設定的目標。

問:那么您要如何對一套不完全了解其運作方式的系統(tǒng)建立信心?

Been Kim:這里我想打個比方。假設我的后院有一棵樹,我想把它砍掉,讓院子看起來清爽一點。我可能擁有一把能夠搞定這項工作的鏈鋸。目前,我還不完全了解鏈鋸的工作原理,但產(chǎn)品手冊上提到:“請注意以下事項,以防用戶削到手指?!币虼烁鶕?jù)這本手冊的說明,我更傾向于使用電鈕而非手鋸,因為雖然后者上手難度更低,但我可能得花上5個小時才能完成砍樹任務。

也就是說,你能夠理解“砍樹”是什么意思;如此一來,即使你并不很明白鏈鋸的工作原理,也能夠利用它實現(xiàn)這一目標。

沒錯,可解釋性中第二大分支的目標就是:我們是否能夠充分理解一種工具,從而以安全的方式加以使用?我們可以將確定有效的人類知識反映到工具當中,進而建立起這種理解。

問:那么,“反映人類知識”的方式是如何讓黑匣子AI這類系統(tǒng)具備可理解性的?

Been Kim:下面我想列舉另一個例子。如果醫(yī)生使用機器學習模型進行癌癥診斷,那么醫(yī)生本人肯定希望確保模型當中不存在那些來自我們不希望使用的數(shù)據(jù)的某些隨機相關性。要保障這樣的要求,一種可行的方法就是,確定機器學習模型正在以與人類醫(yī)生類似的方式執(zhí)行診斷流程。換句話說,也就是將醫(yī)生自己的診斷知識反映在這套機器學習模型當中。

因此,如果醫(yī)生們會研究細胞樣本以診斷癌癥,他們可能會在樣本當中尋找一種被稱為“融合腺體”的東西。此外,他們可能也會考慮到患者的年齡,以及患者過去是否擁有過化療經(jīng)歷等等。這些因素正是醫(yī)生在嘗試診斷癌癥時所關心的因素或者概念。如果我們能夠證明機器學習模型也在關注這些因素,那么該模型的可理解性將顯著提升,因為其確實反映出與醫(yī)生相符的人類知識運用行為。

12下一頁>

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2019-01-16
Google Brain新成果:一個能夠理解機器思維方式的AI翻譯器
如果一名醫(yī)生告知要進行手術,人們肯定首先希望了解為什么——即便對方不具備任何專業(yè)的醫(yī)學知識,醫(yī)生明確解釋診斷理由仍然極其必要。而人工智能也一樣。

長按掃碼 閱讀全文