學(xué)術(shù)出版商 Springer Nature 出版了第一本由機(jī)器學(xué)習(xí)生成的書籍——《鋰離子電池:機(jī)器生成的當(dāng)前研究摘要》,它概述了鋰離子電池領(lǐng)域的最新研究成果,大約250頁。
與電池研究一樣有趣的是,它只與該項目的實際目的相關(guān)。人工智能的創(chuàng)造者,在本書的廣泛而有趣的序言中,解釋了他們的意圖更多的是開始討論機(jī)器生成的科學(xué)文獻(xiàn),從作者問題到技術(shù)和道德問題。
換句話說,他們的目的是產(chǎn)生問題,而不是答案。他們有豐富的問題:
誰是機(jī)器生成內(nèi)容的創(chuàng)始人?算法的開發(fā)人員可以被視為作者嗎?或者是從初始輸入開始的人(例如“鋰離子電池”作為術(shù)語)并調(diào)整各種參數(shù)?是否有指定的發(fā)起人?誰決定一臺機(jī)器應(yīng)該首先產(chǎn)生什么?從道德的角度來看,誰對機(jī)器生成的內(nèi)容負(fù)責(zé)?
這里面用到的技術(shù),是由Springer Nature和法拉克福歌德大學(xué)共同開發(fā)的一種先進(jìn)算法:Beta Writer。它使用的是基于相似性的聚類分析,將海量的源文檔排列成連貫的章節(jié),然后創(chuàng)建文章的簡潔摘要,同時,將文章內(nèi)部加入超鏈接,這樣利于讀者進(jìn)一步閱讀原始的文章。
AI這種創(chuàng)新化的結(jié)構(gòu)化摘錄成書,有利于研究人員更高效地管理海量信息,以及人們從海量內(nèi)容里快速選擇、使用和處理相關(guān)領(lǐng)域的文檔。
人工智能在這個高度技術(shù)性的主題上分發(fā)了數(shù)千篇關(guān)于1,086篇論文,分析它們以找到關(guān)鍵詞,參考文獻(xiàn),“代詞回指”等等。然后根據(jù)他們的發(fā)現(xiàn)對論文進(jìn)行聚類和組織,以便以邏輯的、基于章的方式呈現(xiàn)。
代表性的句子和摘要必須從論文中提取,然后重新制定以供審查,這既是出于版權(quán)的原因,也是因為原文的語法在新的背景下可能不起作用。
AI必須很好地理解論文,它知道“它”是什么,并且在重構(gòu)句子時,將“it”替換為該項,并且知道它可以取消“因此”和最后的旁注。
這必須完成數(shù)千次模擬,并且許多邊緣情況會彈出模型不能正確處理或產(chǎn)生一些公認(rèn)的笨拙的用語。
最終,這本書具有可讀性和可以想象的有用性,已經(jīng)將大約一萬頁的研究歸結(jié)為大約250頁。但正如研究人員所說,這一承諾要大得多。
這本書里面包含了2016-2018年發(fā)表過的150多篇權(quán)威研究論文。僅在過去3年,關(guān)于鋰電子電池的研究論文就發(fā)表了超出53000篇,這對試圖學(xué)習(xí)這一領(lǐng)域的科學(xué)家是一個巨大的挑戰(zhàn),但AI的自動掃描和總結(jié)輸出,能讓科學(xué)家們把更多時間用在重要的研究上。
這里的目標(biāo)似乎并不遙遠(yuǎn),就是能夠告訴一項服務(wù)“給我一份50頁的生物工程最后4年的總結(jié)。
可以預(yù)見,未來的學(xué)術(shù)出版以及各類書籍,將不再只是人為創(chuàng)造,而是有更多形式出現(xiàn),包括了混合人機(jī)文本生成的書籍或完全由機(jī)器學(xué)習(xí)生成的文本。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )