日韩精品无码久久久久成人,bt亚洲天堂亚洲视频一,久久精品全国免费观看国产

在新一波的技術(shù)浪潮中，大語(yǔ)言模型風(fēng)頭正勁，但還有一種AI技術(shù)，正在配音、直播、客服等多個(gè)行業(yè)正發(fā)揮出越來(lái)越廣泛的應(yīng)用。2月18日，京東言犀公布了兩項(xiàng)最新技術(shù)成果——語(yǔ)音合成大模型LiveTTS及通用數(shù)字人大模型2.0，支持zero-shot音色復(fù)刻和精品音色微調(diào)，并支持更精準(zhǔn)的數(shù)字人聲唇對(duì)齊，將大幅提升人機(jī)自然交互體驗(yàn)，目前已針對(duì)直播、外呼、客服、營(yíng)銷(xiāo)等超10種特定商業(yè)化場(chǎng)景完成調(diào)優(yōu)適配。技術(shù)降本帶來(lái)用戶(hù)體驗(yàn)躍升，預(yù)計(jì)也將帶動(dòng)更多AI營(yíng)銷(xiāo)服務(wù)增量市場(chǎng)。

語(yǔ)音合成大模型全新升級(jí) 支持zero-shot音色復(fù)刻和精品音色微調(diào)

LiveTTS，是京東言犀最新發(fā)布的高仿真、多語(yǔ)言、情感豐富的語(yǔ)音合成（TTS）大模型，通過(guò)AI 技術(shù)生成自然、具備韻律且富有情感的語(yǔ)音。現(xiàn)在，只需喂給LiveTTS模型最短3秒音頻素材，就能支持zero-shot音色復(fù)刻以及精品音色微調(diào)，近乎完美的對(duì)聲音進(jìn)行復(fù)刻。

這得益于基于Diffusion架構(gòu)完成的20萬(wàn)小時(shí)數(shù)據(jù)"熔煉"。在SeedTTS test-hard測(cè)試中，其CER指標(biāo)（字符錯(cuò)誤率）較其他頭部廠商模型降低了0.2%-5.12%不等，相當(dāng)于每萬(wàn)字最多能減少512處發(fā)音失誤。在主觀評(píng)價(jià)上，通過(guò)盲評(píng)的MOS評(píng)測(cè)，該模型尤其在音色相似度、自然清晰度、情感表達(dá)一致性方面表現(xiàn)出色，音色相似度較其他頭部廠商模型高出1.3倍。

從語(yǔ)音準(zhǔn)確性上，言犀結(jié)合中文拼音與英文音素雙輸入系統(tǒng)，提升了發(fā)音準(zhǔn)確性，讓技術(shù)更可用。從仿真度上，采用高質(zhì)量的HiFt聲碼器，實(shí)現(xiàn)超98%的聲紋還原精度。

大量的實(shí)時(shí)、多樣性語(yǔ)音數(shù)據(jù)加入訓(xùn)練，也進(jìn)一步提升了模型的泛化能力，讓模型能夠在不同音頻提示詞（prompt）的條件下合成韻律豐富、自然的音頻，更加易用。LiveTTS已經(jīng)能適配從兒童俏皮聲到老年人沉穩(wěn)語(yǔ)調(diào)的多樣化需求，還支持中/英/日等多語(yǔ)種及方言的語(yǔ)音合成。

極低門(mén)檻、極致擬真、極多場(chǎng)景，是言犀LiveTTS語(yǔ)音合成大模型的優(yōu)勢(shì)。基于LiveTTS打造的言犀數(shù)字人，支持近百個(gè)不同風(fēng)格音色，形成圍繞直播場(chǎng)景需求的聲音供應(yīng)鏈。2024年京東11.11期間，言犀TTS單日調(diào)用超1000萬(wàn)次，成本直降90%，大大提升直播、配音、外呼等行業(yè)的工作效率。

數(shù)字人大模型實(shí)現(xiàn)精準(zhǔn)聲唇同步造就AI生產(chǎn)力

言犀數(shù)字人已廣泛應(yīng)用在電商直播、客服接待、短視頻等場(chǎng)景中，光是使用數(shù)字人日常開(kāi)播的商家就有超過(guò)7500家。但數(shù)字人向更大范圍的規(guī)模化應(yīng)用始終存在三個(gè)難點(diǎn)：形象數(shù)據(jù)采集成本高、模型訓(xùn)練周期長(zhǎng)和推理效果難泛化。

為了解決這些問(wèn)題，言犀團(tuán)隊(duì)提出了新一代聲唇同步數(shù)字人基座模型，通過(guò)創(chuàng)新的多階段基模型訓(xùn)練方法、多圖參考的多層注意力機(jī)制等方法。這一億級(jí)參數(shù)量的聲唇同步基座模型，進(jìn)一步拓展了數(shù)字人在遮擋、大角度、多語(yǔ)速、跨音色和多語(yǔ)言等場(chǎng)景的應(yīng)用。目前，在動(dòng)態(tài)背景、多人直播等真實(shí)應(yīng)用場(chǎng)景里，言犀數(shù)字人的唇形匹配度仍達(dá)到95%，具備較好的泛化能力，在各種場(chǎng)景中更可用，更易用。

在新一代數(shù)字人基座大模型支持下，僅需一張帶人像的圖片或短視頻、一份商品鏈接，言犀就可以自動(dòng)生成流暢豐富的帶貨腳本，結(jié)合LiveTTS生成情緒化口播，數(shù)字人便栩栩如生“活”起來(lái)。這種模式，告別了傳統(tǒng)、冗長(zhǎng)的數(shù)字人模型訓(xùn)練流程，實(shí)現(xiàn)直接推理，既省去了訓(xùn)練成本，還進(jìn)一步擴(kuò)展了數(shù)字人在視頻翻譯等低數(shù)據(jù)量場(chǎng)景的應(yīng)用邊界。

除了直播外，平臺(tái)還能支持輸出數(shù)十條不同風(fēng)格的數(shù)字人種草短視頻。整個(gè)過(guò)程從過(guò)往的至少72小時(shí)壓縮至分鐘級(jí)，成本僅為傳統(tǒng)數(shù)字人制作的十分之一，進(jìn)一步實(shí)現(xiàn)技術(shù)降本。

言犀最新發(fā)布的兩項(xiàng)技術(shù)成果，并非單純的技術(shù)跑分競(jìng)賽，而是旨在進(jìn)一步降低AI應(yīng)用的成本，新一代的語(yǔ)音合成LiveTTS模型及數(shù)字人大模型2.0，正在短視頻合成、數(shù)字人直播、視頻翻譯、數(shù)字人唱歌跳舞等多個(gè)商業(yè)化場(chǎng)景中應(yīng)用，讓大模型變成商家人手必備的普惠工具。

作為品牌的AI營(yíng)銷(xiāo)搭子，言犀將不斷開(kāi)發(fā)出更多支持營(yíng)銷(xiāo)場(chǎng)景的技術(shù)與產(chǎn)品，進(jìn)一步降低中小商家應(yīng)用門(mén)檻，加速AI生產(chǎn)力走進(jìn)營(yíng)銷(xiāo)場(chǎng)景。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

AI生產(chǎn)力拉滿(mǎn)！言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展

下一篇

AI生產(chǎn)力拉滿(mǎn)！言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展

下一篇

AI生產(chǎn)力拉滿(mǎn)！言犀公布最新語(yǔ)音合成及數(shù)字人大模型進(jìn)展