晴數(shù)智慧推出MagicData-CLAM高質(zhì)量SFT數(shù)據(jù)集,助力大模型實(shí)現(xiàn)更優(yōu)效果
兩周前Meta發(fā)布了開(kāi)源大模型LLaMA 2。與上一代LLaMA相比,LLaMA 2有著性能接近GPT-3.5、允許商用、安全性更強(qiáng),巨頭聯(lián)合生態(tài)開(kāi)源的特點(diǎn)。LLaMA 2的開(kāi)源使得大模型的競(jìng)爭(zhēng)來(lái)到新的起點(diǎn),市場(chǎng)格局面臨重塑。如果開(kāi)源大模型使得企業(yè)不再制肘于自研大模型,那么基于大模型的生成式AI決勝關(guān)鍵將只有一個(gè)答案:數(shù)據(jù)。
數(shù)據(jù)質(zhì)量是AI大模型落地的決勝關(guān)鍵
在模型相對(duì)固定的前提下,通過(guò)提升數(shù)據(jù)的質(zhì)量和數(shù)量來(lái)提升整個(gè)模型的訓(xùn)練效果的模型優(yōu)化方式被越來(lái)越多業(yè)內(nèi)人士所認(rèn)同。人工智能領(lǐng)域的權(quán)威學(xué)者吳恩達(dá)發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動(dòng)就是主張模型不變,通過(guò)改進(jìn)數(shù)據(jù)集質(zhì)量提升模型效果。在當(dāng)前算力和算法難以拉開(kāi)巨大差距的情況下,突破數(shù)據(jù)瓶頸、獲取更多高質(zhì)量的數(shù)據(jù)成為大模型落地的關(guān)鍵。
來(lái)源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023
晴數(shù)智慧推出高質(zhì)量MagicData-CLAM數(shù)據(jù)集
在中文高質(zhì)量數(shù)據(jù)集稀缺的情境下,晴數(shù)智慧基于近20年在對(duì)話數(shù)據(jù)的專業(yè)積累,在國(guó)內(nèi)首次推出了面向大模型SFT訓(xùn)練的高質(zhì)量數(shù)據(jù)集:MagicData-CLAM數(shù)據(jù)集。
該數(shù)據(jù)集包含一共5萬(wàn)條Prompt和對(duì)應(yīng)回答,數(shù)據(jù)的分布由晴數(shù)智慧數(shù)據(jù)專家團(tuán)隊(duì)設(shè)計(jì)完成,覆蓋領(lǐng)域多樣性、任務(wù)多樣性,以及表達(dá)多樣性。數(shù)據(jù)版權(quán)完整清晰。
MagicData-CLAM幫助實(shí)現(xiàn)更優(yōu)的大模型微調(diào)結(jié)果
為了更好地評(píng)估MagicData-CLAM的價(jià)值,晴數(shù)智慧研發(fā)團(tuán)隊(duì)進(jìn)行了一組實(shí)驗(yàn):基于chinese-llama-2-7b模型(該模型由開(kāi)源項(xiàng)目 Linly 發(fā)布,是基于 LLaMA2-7b訓(xùn)練的中文底座模型),團(tuán)隊(duì)分別使用約等量的MagicData-CLAM數(shù)據(jù)集和基于斯坦福Alpaca數(shù)據(jù)處理的高質(zhì)量中文數(shù)據(jù)集進(jìn)行微調(diào),得到Chinese-llama2-CLAM(簡(jiǎn)稱CLAM)大模型和Chinese-llama2-alpaca(簡(jiǎn)稱Alpaca)模型。我們對(duì)這兩個(gè)模型以及基礎(chǔ)chinese-llama-2-7b模型(基線模型)的輸出結(jié)果進(jìn)行評(píng)估。結(jié)果顯示,從大模型的表達(dá)自然度上,結(jié)果輸出結(jié)構(gòu)化上,CLAM顯著更優(yōu);在輸出知識(shí)的正確性上CLAM也表現(xiàn)不錯(cuò)。
測(cè)評(píng)樣例如下:
對(duì)比模型輸出的結(jié)果,我們發(fā)現(xiàn):
CLAM模型相比Alpaca模型,對(duì)中文的理解更好,結(jié)果輸出上結(jié)構(gòu)化更清晰。
Alpaca模型似乎容易先續(xù)寫(xiě)幾句任務(wù)然后才開(kāi)始進(jìn)行回答,交互自然度稍有欠缺,而CLAM模型幾乎未出現(xiàn)這種情況。
Alpaca模型偶爾出現(xiàn)幻覺(jué),如它的輸出結(jié)果有如此描述:經(jīng)典的歌劇作品包括《托斯卡》、《費(fèi)加羅的婚禮》、《魔笛》等,京劇作品如《茶館》、《空城計(jì)》、《雷雨》等。(《茶館》與《雷雨》并非京劇作品。)而在相關(guān)知識(shí)輸出中,CLAM模型較好地理解了歌劇,京劇等的區(qū)別,并輸出更合理的知識(shí)。
此實(shí)驗(yàn)結(jié)果說(shuō)明,調(diào)優(yōu)數(shù)據(jù)集對(duì)基線模型的輸出結(jié)果有明顯影響,使用更高質(zhì)量的數(shù)據(jù)集,模型能輸出更優(yōu)的結(jié)果;Alpaca數(shù)據(jù)集是斯坦福大學(xué)研究團(tuán)隊(duì)發(fā)布的高質(zhì)量數(shù)據(jù)集代表,而CLAM模型的輸出結(jié)果優(yōu)于Alpaca中文版模型,說(shuō)明晴數(shù)智慧自研的MagicData-CLAM數(shù)據(jù)集是優(yōu)質(zhì)的中文高質(zhì)量數(shù)據(jù)集。
一場(chǎng)不同于過(guò)去的新的競(jìng)爭(zhēng)正在生成式人工智能領(lǐng)域展開(kāi),高質(zhì)量數(shù)據(jù)在其中將成為越來(lái)越關(guān)鍵的因素。MagicData-CLAM數(shù)據(jù)集作為晴數(shù)智慧在國(guó)內(nèi)首發(fā)的合規(guī)可商用高質(zhì)量SFT數(shù)據(jù)集,希望能幫助國(guó)內(nèi)大模型應(yīng)用研發(fā)伙伴先人一步,占領(lǐng)制勝先機(jī)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )