數(shù)據(jù)開(kāi)源 | 高質(zhì)量雙工自然對(duì)話中文語(yǔ)音數(shù)據(jù)集,引領(lǐng)AI實(shí)時(shí)交互新體驗(yàn)

在快速發(fā)展的人工智能領(lǐng)域,技術(shù)突破與用戶(hù)體驗(yàn)提升正引領(lǐng)著語(yǔ)音對(duì)話模型邁向新的高度。從最初的簡(jiǎn)單問(wèn)答到如今復(fù)雜多變的對(duì)話場(chǎng)景,人機(jī)交互正經(jīng)歷著前所未有的深刻變革。傳統(tǒng)的訓(xùn)練數(shù)據(jù)已難以適應(yīng)當(dāng)前的需求,現(xiàn)代交互要求系統(tǒng)不僅能理解語(yǔ)言的上下文,還需快速識(shí)別用戶(hù)的需求并作出恰當(dāng)反饋。

在此背景下,晴數(shù)智慧聯(lián)合中國(guó)科學(xué)院聲學(xué)研究所,共同開(kāi)源了“雙工自然對(duì)話語(yǔ)音數(shù)據(jù)集_中文”,為語(yǔ)音對(duì)話模型提供更加真實(shí)、細(xì)膩的訓(xùn)練數(shù)據(jù)。通過(guò)對(duì)每位說(shuō)話者語(yǔ)音的獨(dú)立分析,該數(shù)據(jù)集讓語(yǔ)音對(duì)話模型能夠洞察對(duì)話中的上下文變化、語(yǔ)調(diào)起伏以及情感波動(dòng),從而生成更加自然、準(zhǔn)確的回應(yīng)。同時(shí),雙工分離數(shù)據(jù)讓端到端模型的構(gòu)建更為精準(zhǔn),反饋速度更快。

AI實(shí)時(shí)交互新體驗(yàn)" alt="數(shù)據(jù)開(kāi)源 " 高質(zhì)量雙工自然對(duì)話中文語(yǔ)音數(shù)據(jù)集,引領(lǐng)AI實(shí)時(shí)交互新體驗(yàn)" loading="lazy"/>

數(shù)據(jù)集描述

晴數(shù)智慧開(kāi)發(fā)的多通道自然對(duì)話語(yǔ)音數(shù)據(jù)集,旨在解決當(dāng)前語(yǔ)音對(duì)話模型面臨的兩大問(wèn)題:一是如何在復(fù)雜對(duì)話環(huán)境中準(zhǔn)確捕捉并區(qū)分每位說(shuō)話者的語(yǔ)音信息;二是如何使AI模型更好地理解并適應(yīng)自然對(duì)話中的打斷、交互等動(dòng)態(tài)過(guò)程。

數(shù)據(jù)開(kāi)源

上圖為雙工語(yǔ)音交互模型架構(gòu)圖。雙工語(yǔ)音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了傳統(tǒng)單工語(yǔ)音交互模型一問(wèn)一答的僵化響應(yīng)模式,實(shí)現(xiàn)了同步聽(tīng)說(shuō)以及在交互過(guò)程中自然的打斷與插話。然而,這些模型的訓(xùn)練高度依賴(lài)雙工自然對(duì)話語(yǔ)音數(shù)據(jù)。而此類(lèi)數(shù)據(jù)的稀缺,尤其是在中文領(lǐng)域,嚴(yán)重限制了上述模型的性能提升。

為解決這些問(wèn)題,我們采取了創(chuàng)新的數(shù)據(jù)采集與處理策略。首先,通過(guò)獨(dú)立采集每位說(shuō)話者的音軌,并單獨(dú)對(duì)每個(gè)說(shuō)話人做分類(lèi)標(biāo)注,完整的保留了對(duì)話過(guò)程中自然的打斷,交互等過(guò)程。其次,通過(guò)將每位說(shuō)話者的音頻分離,我們能夠提供更清晰、更精準(zhǔn)的訓(xùn)練數(shù)據(jù),使模型更專(zhuān)注于理解和響應(yīng)自然說(shuō)話的交互過(guò)程。

為了讓大家更直觀地了解我們的多通道數(shù)據(jù),我們特別選取了5小時(shí)的對(duì)話內(nèi)容作為本次開(kāi)源數(shù)據(jù)集。本數(shù)據(jù)可以用于模型的微調(diào)或者測(cè)試使用(非商用)。

數(shù)據(jù)開(kāi)源

數(shù)據(jù)集優(yōu)勢(shì)與亮點(diǎn)

自然度:捕捉真實(shí)場(chǎng)景下的自然對(duì)話,確保數(shù)據(jù)的高度自然流暢;

領(lǐng)域多樣性:覆蓋多個(gè)行業(yè)與話題,滿(mǎn)足跨領(lǐng)域應(yīng)用需求;

地域多樣性:融入不同地域的語(yǔ)音特征,增強(qiáng)模型的泛化能力;

副語(yǔ)言標(biāo)簽:特別標(biāo)注副語(yǔ)言信息,如語(yǔ)氣、停頓等,為深度情感分析與交互體驗(yàn)升級(jí)提供有力支持。

除了中文雙工對(duì)話數(shù)據(jù)開(kāi)源之外,我們同樣開(kāi)源了英語(yǔ)雙工對(duì)話數(shù)據(jù),對(duì)英語(yǔ)雙工數(shù)據(jù)感興趣的朋友,歡迎通過(guò)以下鏈接下載并使用,探索更多可能~

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )