AI生產(chǎn)力拉滿(mǎn)!言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展

在新一波的技術(shù)浪潮中,大語(yǔ)言模型風(fēng)頭正勁,但還有一種AI技術(shù),正在配音、直播、客服等多個(gè)行業(yè)正發(fā)揮出越來(lái)越廣泛的應(yīng)用。2月18日,京東言犀公布了兩項(xiàng)最新技術(shù)成果——語(yǔ)音合成大模型LiveTTS及通用數(shù)字人大模型2.0,支持zero-shot音色復(fù)刻和精品音色微調(diào),并支持更精準(zhǔn)的數(shù)字人聲唇對(duì)齊,將大幅提升人機(jī)自然交互體驗(yàn),目前已針對(duì)直播、外呼、客服、營(yíng)銷(xiāo)等超10種特定商業(yè)化場(chǎng)景完成調(diào)優(yōu)適配。技術(shù)降本帶來(lái)用戶(hù)體驗(yàn)躍升,預(yù)計(jì)也將帶動(dòng)更多AI營(yíng)銷(xiāo)服務(wù)增量市場(chǎng)。

語(yǔ)音合成大模型全新升級(jí) 支持zero-shot音色復(fù)刻和精品音色微調(diào)

LiveTTS,是京東言犀最新發(fā)布的高仿真、多語(yǔ)言、情感豐富的語(yǔ)音合成(TTS)大模型,通過(guò)AI 技術(shù)生成自然、具備韻律且富有情感的語(yǔ)音。現(xiàn)在,只需喂給LiveTTS模型最短3秒音頻素材,就能支持zero-shot音色復(fù)刻以及精品音色微調(diào),近乎完美的對(duì)聲音進(jìn)行復(fù)刻。

這得益于基于Diffusion架構(gòu)完成的20萬(wàn)小時(shí)數(shù)據(jù)"熔煉"。在SeedTTS test-hard測(cè)試中,其CER指標(biāo)(字符錯(cuò)誤率)較其他頭部廠商模型降低了0.2%-5.12%不等,相當(dāng)于每萬(wàn)字最多能減少512處發(fā)音失誤。在主觀評(píng)價(jià)上,通過(guò)盲評(píng)的MOS評(píng)測(cè),該模型尤其在音色相似度、自然清晰度、情感表達(dá)一致性方面表現(xiàn)出色,音色相似度較其他頭部廠商模型高出1.3倍。

從語(yǔ)音準(zhǔn)確性上,言犀結(jié)合中文拼音與英文音素雙輸入系統(tǒng),提升了發(fā)音準(zhǔn)確性,讓技術(shù)更可用。從仿真度上,采用高質(zhì)量的HiFt聲碼器,實(shí)現(xiàn)超98%的聲紋還原精度。

大量的實(shí)時(shí)、多樣性語(yǔ)音數(shù)據(jù)加入訓(xùn)練,也進(jìn)一步提升了模型的泛化能力,讓模型能夠在不同音頻提示詞(prompt)的條件下合成韻律豐富、自然的音頻,更加易用。LiveTTS已經(jīng)能適配從兒童俏皮聲到老年人沉穩(wěn)語(yǔ)調(diào)的多樣化需求,還支持中/英/日等多語(yǔ)種及方言的語(yǔ)音合成。

極低門(mén)檻、極致擬真、極多場(chǎng)景,是言犀LiveTTS語(yǔ)音合成大模型的優(yōu)勢(shì)。基于LiveTTS打造的言犀數(shù)字人,支持近百個(gè)不同風(fēng)格音色,形成圍繞直播場(chǎng)景需求的聲音供應(yīng)鏈。2024年京東11.11期間,言犀TTS單日調(diào)用超1000萬(wàn)次,成本直降90%,大大提升直播、配音、外呼等行業(yè)的工作效率。

數(shù)字人大模型實(shí)現(xiàn)精準(zhǔn)聲唇同步 造就AI生產(chǎn)力

言犀數(shù)字人已廣泛應(yīng)用在電商直播、客服接待、短視頻等場(chǎng)景中,光是使用數(shù)字人日常開(kāi)播的商家就有超過(guò)7500家。但數(shù)字人向更大范圍的規(guī)模化應(yīng)用始終存在三個(gè)難點(diǎn):形象數(shù)據(jù)采集成本高、模型訓(xùn)練周期長(zhǎng)和推理效果難泛化。

為了解決這些問(wèn)題,言犀團(tuán)隊(duì)提出了新一代聲唇同步數(shù)字人基座模型,通過(guò)創(chuàng)新的多階段基模型訓(xùn)練方法、多圖參考的多層注意力機(jī)制等方法。這一億級(jí)參數(shù)量的聲唇同步基座模型,進(jìn)一步拓展了數(shù)字人在遮擋、大角度、多語(yǔ)速、跨音色和多語(yǔ)言等場(chǎng)景的應(yīng)用。目前,在動(dòng)態(tài)背景、多人直播等真實(shí)應(yīng)用場(chǎng)景里,言犀數(shù)字人的唇形匹配度仍達(dá)到95%,具備較好的泛化能力,在各種場(chǎng)景中更可用,更易用。

在新一代數(shù)字人基座大模型支持下,僅需一張帶人像的圖片或短視頻、一份商品鏈接,言犀就可以自動(dòng)生成流暢豐富的帶貨腳本,結(jié)合LiveTTS生成情緒化口播,數(shù)字人便栩栩如生“活”起來(lái)。這種模式,告別了傳統(tǒng)、冗長(zhǎng)的數(shù)字人模型訓(xùn)練流程,實(shí)現(xiàn)直接推理,既省去了訓(xùn)練成本,還進(jìn)一步擴(kuò)展了數(shù)字人在視頻翻譯等低數(shù)據(jù)量場(chǎng)景的應(yīng)用邊界。

除了直播外,平臺(tái)還能支持輸出數(shù)十條不同風(fēng)格的數(shù)字人種草短視頻。整個(gè)過(guò)程從過(guò)往的至少72小時(shí)壓縮至分鐘級(jí),成本僅為傳統(tǒng)數(shù)字人制作的十分之一,進(jìn)一步實(shí)現(xiàn)技術(shù)降本。

言犀最新發(fā)布的兩項(xiàng)技術(shù)成果,并非單純的技術(shù)跑分競(jìng)賽,而是旨在進(jìn)一步降低AI應(yīng)用的成本,新一代的語(yǔ)音合成LiveTTS模型及數(shù)字人大模型2.0,正在短視頻合成、數(shù)字人直播、視頻翻譯、數(shù)字人唱歌跳舞等多個(gè)商業(yè)化場(chǎng)景中應(yīng)用,讓大模型變成商家人手必備的普惠工具。

作為品牌的AI營(yíng)銷(xiāo)搭子,言犀將不斷開(kāi)發(fā)出更多支持營(yíng)銷(xiāo)場(chǎng)景的技術(shù)與產(chǎn)品,進(jìn)一步降低中小商家應(yīng)用門(mén)檻,加速AI生產(chǎn)力走進(jìn)營(yíng)銷(xiāo)場(chǎng)景。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2025-02-18
AI生產(chǎn)力拉滿(mǎn)!言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展
AI生產(chǎn)力拉滿(mǎn)!言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展

長(zhǎng)按掃碼 閱讀全文