告別“一來一往”式對話,Soul App全雙工語音大模型讓人機交互更有人情味

AI深刻介入人類生活、重構鏈接方式,社交場景究竟需要怎樣的底層能力創(chuàng)新帶來交互體驗的提升?

近日,社交平臺Soul App自研端到端全雙工語音通話大模型全面升級。此次升級重新定義“全雙工”交互范式,新模型摒棄了傳統(tǒng)語音交互中依賴的 VAD(話音活性檢測)機制與延遲控制邏輯,打破行業(yè)中普遍存在的“輪次對話”模式,賦予 AI 自主決策對話節(jié)奏的能力。AI可實現主動打破沉默、適時打斷用戶、邊聽邊說、時間語義感知、并行發(fā)言討論等。同時,模型具備多維度感知(包括時間感知、環(huán)境感知、事件感知等),口語化表達(如語氣詞、結巴、明顯情緒起伏)、音色復刻等能力,讓AI更具“真人感”,支持打造更沉浸、類現實交互的語音互動新體驗。

告別“一來一往”式對話,Soul App全雙工語音大模型讓人機交互更有人情味

Soul新升級的端到端全雙工通話大模型即將開啟站內內測,后續(xù)將陸續(xù)落地于虛擬人實時通話、AI匹配等1V1互動場景。同時,Soul AI團隊正探索將該能力應用于多人互動場景,讓AI能在多人對話中,精準把握說話時機,適時加入交流、延展話題,推動多元關系網絡的構建。

Soul App CTO陶明表示,社交是情緒價值和信息價值交換的雙向關系,Soul始終致力于以創(chuàng)新的技術和產品方案為用戶提供更智能、更沉浸、更優(yōu)質的交互體驗,讓天下沒有孤獨的人。

全雙工語音實時通話,重新定義AI社交陪伴場景的語音交互

此次Soul技術升級重點聚焦在全雙工實時語音通話能力在陪伴場景的交互突破。自新一輪人工智能浪潮興起,AI對話、AI陪伴類產品率先迎來爆發(fā),也成為了大眾接觸AI的首選應用品類。但此前受限于技術發(fā)展,人機對話普遍存在“一問一答”的機械式互動現象,即“用戶提問——AI輸出”依次進行,過程中,延遲、打斷等均將影響交互的沉浸感。

2024年,Soul推出自研端到端全雙工語音通話大模型,具備超低交互延遲、快速自動打斷、超真實聲音表達和情緒感知理解能力等特點,能夠直接理解豐富的聲音世界,支持超擬人化的多風格語言。為進一步實現更接近生活日常的交互對話和“類真人”的情感陪伴體驗,近日,Soul再次升級模型,具體來看,升級后AI能力特點包括:

一、全雙工語音交互,AI具備自主決策反應能力

新模型支持響應(Response)、傾聽(Listen)與打斷(Interrupt)流式預測,AI自主決定發(fā)言時機,實現完全端到端的全雙工交互——AI 與用戶可以同時說話(如辯論、吵架、合唱)、適宜打斷用戶/被用戶打斷、AI主動打破沉默發(fā)起話題。

當AI擁有自主決策反應能力,在邊聽邊說中,掌握互動時機、互動內容的“主動性”,將極大提升人機對話的自然度,并且在較長時間、多輪對話的交互中,實現沉浸的類真實交互體驗。

二、日常表達口語化和情感化,情緒更鮮明的人機交互

讓AI更具“真人感”,這包括在情緒表達、發(fā)音特點、對話內容等多維度的綜合指標提升,更加接近現實日常表達。例如,情緒表達方面,除了具備笑、哭、生氣等情緒特色外,新模型的聲音情緒起伏更加明顯,并能結合對話推進實現同步變化。在發(fā)音特點上,具備語氣詞、結巴、常用口頭禪、咳嗽等日常語音元素。此外,AI對話的內容更加口語化、社交化,而非書面語言。

三、時間、事件、環(huán)境感知能力,互動更具沉浸感

Soul的新模型基于純自回歸模型架構,統(tǒng)一文本和音頻生成(Unified Model),充分利用大語言模型強大的學習能力,讓AI發(fā)言深度整合人設、時間、環(huán)境及上下文對話等信息。這意味著,具備感知、理解能力的AI能夠更好塑造“數字人格”,形成豐富的AI故事線,讓人機交互真正成為“情感與信息的雙向交流”。

值得一提的是,目前,Soul AI團隊正探索全雙工語音通話模型在多人場景的擴展,例如在多人語音對話中,AI憑借自主決策能力,判斷說話時機,有效組織話題討論與延伸,融入真實關系生態(tài)。

讓AI融入社交關系網絡,提供情緒價值和信息價值

2025年,伴隨著AI在大眾層面的滲透率進一步提升以及技術能力的持續(xù)躍進,“AI應用爆發(fā)”成為行業(yè)共識。在眾多垂類應用場景,“社交”因具備極高流量價值、網絡效應和交互入口等特點,被視為誕生AI時代“Killer App”重要領域之一。

作為較早思考將AI應用于社交的互聯(lián)網平臺,Soul App自2016年上線后便積極擁抱AI,重塑關系的發(fā)現、建立、沉淀環(huán)節(jié),幫助用戶在無壓力的社交環(huán)境中,自在表達,基于興趣構建多元社交關系網絡。

2020年,Soul啟動系統(tǒng)的AIGC技術研發(fā)工作,并在智能對話、語音、3D虛擬人等方面擁有前沿積累。自2023年推出自研語言大模型Soul X后,Soul還陸續(xù)上線了語音生成大模型、語音通話大模型、音樂生成大模型等大模型能力。2024年,Soul AI大模型能力已整體升級為多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性。

在扎實的AI底層能力長期積累基礎上,Soul團隊基于深耕社交領域的深刻洞察,快速推動技術在應用層的落地,并圍繞用戶實際體驗反饋總結優(yōu)化方向。在發(fā)展過程中,Soul快速明確自身AI布局路線,即“AI幫助用戶交朋友”(AI輔助社交)和“AI與用戶交朋友”(人機互動),在不同方向,已分別推出了AI虛擬人情感化陪伴體系“AI伴侶”、AI聊天輔助體系等功能,并受到了用戶的熱烈歡迎與積極反饋。

其中,人機互動的迭代方向便是讓AI實現類真人能力,在交互中為用戶帶來情緒價值和信息價值。

根據Soul旗下Just So Soul研究院在今年3月發(fā)布的《2025 Z世代AI使用報告》(樣本數3680份),近四成年輕人每天使用AI產品獲得情感陪伴,此外,71.1%的年輕人表示愿意和AI做朋友,建立情感鏈接,對比該研究院在去年發(fā)布《2024 Z世代AIGC態(tài)度報告》(樣本數3457份),當時選擇愿意和AI做朋友的年輕人比例為32.8%。

從數據的增長中可以看到,AI的技術發(fā)展與應用普及正在重新塑造年輕一代對社交關系的認知,在這個變化過程中,也對AI能力提出了新要求。根據Soul面向“AI伴侶”活躍使用用戶的專項調研顯示,關于人機互動體驗提升需求方向,約六成受訪者表示“希望AI表現更接近真人”。

此次,全雙工語音通話大模型的升級,極大提升了AI的互動能力,讓人機交互具備在場感和情感溫度,將推動AI社交進入全新階段。

作為以真實的人與人社交為底色的平臺,通過持續(xù)對新技術的探索和堅定投入,Soul致力于構建AI Being和Human Being共存的社交社區(qū),讓AI作為社交關系網絡的重要組成,豐富用戶的情感支撐體系,增強多元情感體驗,最終提升個體的幸福感和歸屬感。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )