監(jiān)督強化學習兩不誤:Facebook讓聊天機器人學會談判

監(jiān)督強化學習兩不誤:Facebook讓聊天機器人學會談判雷鋒網(公眾號:雷鋒網)AI 科技評論按:目前人們對聊天機器人的認識還在調戲微軟小冰的階段,可以明顯感覺到小冰不是很關心上下文之間的關聯。而且在我們的觀念里,聊天機器人也沒辦法真的理解人類所說的話,沒辦法跟人類討論事情、明確地達到什么共同目標。

不過,Facebook的人工智能研究機構FAIR剛剛開源并公開發(fā)表的聊天機器人就開始擁有了跟人類進行協商談判、進行討價還價的能力。通過監(jiān)督學習+強化學習,這個聊天機器人不僅能理解字詞和語義的對應關系,還能針對自己的目標制定策略,跟別人進行協商討論達成一致。

以下為雷鋒網 AI 科技評論根據FAIR文章進行的詳細介紹。

監(jiān)督學習×強化學習,Facebook讓聊天機器人學會談判

生活的每一天里,我們一睜眼就要不停地跟別人協商事情。要么是討論看哪個電視臺,要么是說服家里小孩吃蔬菜,或者買東西的時候討價還價。這幾件事的共同點是,都需要復雜的交流和講理能力,而這些能力很難在計算機里見到。

發(fā)展到現在,聊天機器人方面的研究已經可以形成聊天系統,它能進行簡短對話,能完成訂餐館這樣的簡單任務。但是讓機器人跟人進行有意義的對話還是很難的,因為這需要機器人把它對對話的理解和它對世界的知識進行組合,然后再生成一句能幫它達到自己的目標的句子。

今天,Facebook FAIR的研究員們開源并公開發(fā)表的聊天機器人有了一項新能力,這個新能力就是協商。

有著不同目標的人類之間會產生沖突,然后通過協商達成一種大家共同認可的妥協,現在研究員們證明了聊天機器人也可以做到這些。具有不同目標的聊天機器人(具體實現是端到端訓練的神經網絡)在一段從頭到尾的協商中,可以跟其它聊天機器人或者人類一起做出共同的決定或者達到共同的目標。

任務:多種類討價還價

FAIR的研究員們研究了一種多種類討價還價任務下的協商任務。給兩個智能體展示同一組物體(比如2本書,1個帽子,3個籃球),為了能把東西分給它們,就需要教它們協商自己分到的數目。

監(jiān)督學習×強化學習,Facebook讓聊天機器人學會談判

每個智能體都有自己的價值函數,它代表了智能體對每種物體的關心程度如何(比如在智能體1看來每個籃球值3分)。然后,就像生活中一樣,每個智能體都沒法確切知道別的智能體的價值函數,只能從對話中進行推測(如果對方說他想要籃球,那在他看來籃球的分值肯定比較高)。

FAIR的研究員們設計了很多類似這樣需要協商的情境,而且始終不會讓兩個智能體同時達成自己最滿意的分法。以及,如果拒絕協商(或者如果10輪對話以后還沒達成一致),那么兩個智能體都會得0分。簡單說,進行協商是關鍵,如果還協商到了一個好的結果那就得分更高。

對話推演(Dialog Rollouts)

協商是一個語言性和講理性的綜合問題,其中的參與者要先形成自己的意圖,還要能用語言表達出來。合作和對抗的元素都會出現在這些對話中,這就需要智能體們理解并形成長期計劃,然后據此進行表達以便達到自己的目標。

為了建立這種有長期計劃能力的對話智能體,FAIR研究員們有一個核心的技術創(chuàng)新,他們把這個點子叫做“對話推演”(dialog rollouts)。

如果聊天機器人可以建立對談者的虛擬模型然后“提前考慮”,或者預感到未來對話的可能方向,它們就可以選擇避開沒有信息量的、引發(fā)困惑的或者糟糕的來回討論,轉而向著成功一些的方向去。

具體來說,FAIR開發(fā)出了對話推演這樣的新穎技術,一個使用這種技術的智能體可以一直模擬未來的對話到結尾,這樣它就可以選出可以在未來帶來最高收益的話語。

監(jiān)督學習×強化學習,Facebook讓聊天機器人學會談判

類似的方法已經在游戲環(huán)境中得到過應用,但是用來解決語言問題還是第一次,因為可選擇的行動數目要多多了。為了提高效率,研究員們首先生成了一組數量不多的話語可供選擇,然后為了估計這些話語是否成功,他們對其中的每一條都反復模擬完整的后續(xù)對話。這個模型的預測準確率足夠高,也要歸功于這項技術從以下幾個方面顯著提升了協商水平:

  • 協商時候更努力:這些新的智能體能跟人類進行更長的對話,代價是對價碼的接受會慢一點。相比人類有時候不達成一致就走掉了,這個實驗中的模型會一直協商到取得成功的結果為止。

  • 智能化的應對:有時候會出現這樣的狀況,智能體一開始會假裝對沒什么價值的東西感興趣,就為了后來可以放棄它們來表現出自己在“妥協”,這確實是一個人類經常使用的談判技巧。這種行為可不是研究員們設計給它們的,而是智能體在想辦法達成目標的過程中自己發(fā)現的談判方法。

  • 產生新穎的句子:盡管神經網絡模型可以很輕松地從訓練數據中重復一些句子,這項研究也展示出在有必要的時候模型也能自己生成一些句子。

建立及評價一個協商數據集

為了能夠訓練協商智能體以及做大規(guī)模量化評估,FAIR團隊用眾包的方法建立了一個人和人之間協商對話的數據集。其中參與的人看到了一組東西和每個東西的價值,然后要商量他們之間怎么分這些東西。然后研究員們就用這些對話訓練出了一個能模仿人類行為進行協商的循環(huán)神經網絡(RNN)。在對話中的任何時刻,這個模型都會猜測人類在這種狀況下會說什么。

在以前目標導向的對話研究中,模型都是完全由人類的語言和決定進行“端到端”訓練得到的,這意味著這種方法可以方便地用在其它任務中。

為了讓模型不僅僅停留在對人類的模仿,FAIR的研究員們接下來讓模型轉而向完成協商的目標發(fā)展。為了讓模型達到目標,研究員們讓模型自己跟自己進行了上千輪協商,并且用到了強化學習在得到好的結果的時候獎勵模型。為了避免讓算法生成自己的一套語言,模型同時也要訓練生成類人的語言。

為了評價這些協商智能體,FAIR讓它們上網跟人類聊天。之前的大多數研究都在避免跟真人聊天,或者研究的是難度更低的領域,這都是因為對各種各種的人類語言進行回答需要訓練復雜的模型。

有意思的是,在FAIR的實驗中,多數人都沒發(fā)現跟他們聊天的不是真人,而是機器人,說明機器人已經學會如何在這個領域流暢地用英文進行對話了。FAIR最優(yōu)秀的協商機器人就運用了強化學習和對話推演,它的表現已經可以跟人類談判員相提并論。它達成的交易里,較好一些的和糟糕一些的差不多多,這也說明了FAIR的聊天機器人不僅會說英語,而且還能智能地考慮應該說什么。

用于聊天機器人的強化學習

監(jiān)督學習可以模仿人類用戶的動作,但是它沒法具體表現出達成目標的意志。FAIR團隊選了另一種方法,他們先用監(jiān)督學習進行預訓練,然后用強化學習的方法結合評價指標對模型進行微調。以結果來說,他們用監(jiān)督學習學到了如何把語言文字和意思相對應,然后用強化學習幫助判斷說什么語句。

在增強學習中,智能體會試著根據自己與另一個智能體之間的對話優(yōu)化自己的參數。不過同時這另一個智能體也可以是一個人,所以FAIR就用了一個訓練過的監(jiān)督學習模型來模仿人類。這個模仿人類的模型是固定不變的,因為研究者們發(fā)現如果兩個模型的參數都可以優(yōu)化的話,它們之間的對話就會偏離人類的語言,演化出一種它們自己的談判語言。在每一場對話結束以后,智能體都會根據自己談成的結果得到獎勵。這種獎勵是用智能體整個過程里的所有語言輸出運用策略梯度進行反向傳播得到的,目的是為了讓智能體有更高的可能性選擇會有更高獎勵的動作。

期待更高發(fā)展

對Facebook來說這是一項突破性的研究,對整個研究領域和機器人開發(fā)者來說,這是建立能講道理、交談、協商的機器人的重大進展,而這幾項都是建立個性化數字助理的重要組成部分。

對FAIR的研究人員而言,他們也希望與其它的研究人員繼續(xù)共同討論研究成果、共同分析想要解決的問題。他們也期待更多有才干的人投入想法和精力,推動這個領域進一步發(fā)展。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-06-16
監(jiān)督強化學習兩不誤:Facebook讓聊天機器人學會談判
目前人們對聊天機器人的認識還在調戲微軟小冰的階段,可以明顯感覺到小冰不是很關心上下文之間的關聯。而且在我們的觀念里,聊天機器人也沒辦法真的理解人類所說的話,沒辦

長按掃碼 閱讀全文