自疫情爆發(fā)以來,從省市級媒體到地方縣級融媒體平臺,都紛紛啟用相芯科技的AI虛擬主播投入到疫情報道的實戰(zhàn)中來。虛擬主播是相芯科技對AI數字人的探索以及應用的一部分,正在不斷改變智能媒體的時代。那么什么是AI數字人?這項技術是如何實現(xiàn)的?它還有哪些可拓展的實際落地場景?大家可以通過相芯科技CTO秦昊在達摩院AI Inside同行者大會中對AI數字人的技術分享,了解一下。
演講嘉賓簡介:秦昊,相芯科技CTO
摘要:在人工智能高速發(fā)展的今天,越來越多的AI技術開始與計算機圖形技術結合解決實際應用問題。AI數字人技術由人工智能與CG技術結合而成,用于提供仿真的人機問答服務,并在視覺通道上優(yōu)化人機交互體驗。相芯科技CTO秦昊在達摩院AI Inside同行者大會中通過企業(yè)在AI數字人方面的探索及相關應用的案例分享展現(xiàn)AI數字人技術的進展及應用。
以下內容根據演講視頻以及PPT整理而成。
本文將站在應用角度為大家展示相芯科技聯(lián)合阿里云TTS開發(fā)的AI數字人應用案例。
AI數字人
AI數字人的概念起源于2017年SIGGRAPH大會上,眾多學術機構合作推出了一款AI數字人Virtual Mike。通過融合當時尖端的渲染技術與動作捕捉技術大會打造了一個惟妙惟肖的實時虛擬角色。經過兩三年的發(fā)展,互聯(lián)網行業(yè)中開始出現(xiàn)數字人技術應用的案例,如百度公司與浦發(fā)銀行共同打造的AI數字人“小浦”可以作為銀行的數字員工為相關用戶提供業(yè)務咨詢及簡單業(yè)務辦理的服務。
AI數字人技術為用戶提供了全新基于視覺通道的人機交互界面。該界面通過融合CG技術、語音技術及自然語言處理等多種技術,為使用者打造出類似人與人交互的操作體驗。企業(yè)通過切換數字人背后的知識庫或AI模塊使其可以支撐不同的業(yè)務場景,如在媒體播報領域、個人助理領域及業(yè)務咨詢等領域數字人技術均有不俗的表現(xiàn)。
虛擬主播云平臺
相芯科技公司基于與阿里云的合作在很多領域開始進行AI數字人技術的應用落地。相芯科技的AI數字人技術,只需要輸入一段文字,就可以全自動地合成整個人的說話,包含動作、形態(tài)、情緒的視頻。公司搭建的虛擬主播云平臺如下圖所示。在平臺編輯界面中,用戶可以對虛擬人物的角色、對話內容腳本及相關人物動作進行選擇,并通過阿里云的云服務器進行渲染和視頻合成,就能快速生成數字人的視頻,用戶可以自行將視頻下載,并進行分發(fā)。
虛擬主播及虛擬機器人
下圖所示為公司虛擬主持人模塊的架構。公司將相關腳本輸入,通過TTS語音技術完成人物語音的合成,在STA(Speech-to-Animation)模塊中進行動畫及視頻合成,最后生成相關的虛擬視頻。企業(yè)同時對互動助手、虛擬機器人技術架構進行了開發(fā)。在數據輸入部分,系統(tǒng)通過接入自然語言處理等模塊完成了機器人問答系統(tǒng)的搭建,以此支持數字人與用戶的實時交互功能。
語音技術合作伙伴—阿里云TTS
STA業(yè)務打造的虛擬主播與虛擬客服,都離不開語音合成技術TTS的支持。企業(yè)對市面上提供TTS服務的公司進行調研對比后,選擇了阿里云TTS作為合作伙伴。企業(yè)通過與阿里云TTS的合作,為數字人角色搭建了真實自然的語音模型,并陸續(xù)在進行更深層次的技術合作。
STA算法流程
下圖所示為STA(Speech-to-Animation)算法流程示意圖。企業(yè)將文本數據與語音數據共同作為算法數據導入算法模塊中,算法將會對語音數據中的情緒及語速等因素進行分析,以此合成出數字人說話的口型、發(fā)音及與用戶的對話情景等數據,通過分析出的數據驅動數字人表現(xiàn)出自然生動的畫面。
圖形合成模塊
企業(yè)經過一系列探索,目前已擁有了完備的數字人表現(xiàn)及部署方案。從3D卡通形象到高精度虛擬人形象企業(yè)均可提供良好的塑造技術支持。企業(yè)可以使用不同的虛擬人物完成不同業(yè)務場景下對虛擬人物的需求,包括且不限于支持智能手機、終端及大屏上數字人的問答業(yè)務、支持云渲染實現(xiàn)高質量視頻合成等業(yè)務場景。
照片級人像合成技術
企業(yè)由SIGGRAPH大會論文成果設計實現(xiàn)的照片級人像合成技術效果如下圖所示。使用者在左側輸入表情時,右側的目標照片上的人物可以實時做出惟妙惟肖的表情。該技術能非常細膩地合成人物臉上每處細節(jié)(如法令紋、牙齒等),使觀看者感受到照片像現(xiàn)實人物一樣在做動作。
該技術背后為企業(yè)基于生成對抗網絡所開發(fā)的技術架構。由于生成對抗網絡技術最大的難點在于它生成的結果的不可控性,考慮到數字人場景需要極其精準掌控人物的發(fā)音狀態(tài)表現(xiàn),開發(fā)團隊創(chuàng)新性的構建了兩個階段的人像合成算法架構。算法首先通過三維的數據重建與數據理解將圖像變形到開發(fā)團隊預設的表情上,之后算法通過生成對抗網絡技術對虛擬人物在細節(jié)上進行修補與還原。在這種方案下,生成對抗網絡本身可以專注于人物細節(jié)的修補,免去了其處理圖片形變與位移所需的精力,使算法可以良好的控制虛擬人物表情變化,真實的還原人物細節(jié)。
下圖為企業(yè)照片級人像合成技術的效果。左上方在人在做一些表情,來控制其他照片,使這五張照片也可以合成出非常真實的表情,包括牙齒、嘴巴內部、法令紋等細節(jié)都能合成得非常真實,很難判別出真假。
虛擬主播案例
目前AI數字人技術不僅可以在高精度虛擬人物合成場景中進行應用,同時也多樣型的數字人解決方案開始在各行各業(yè)的業(yè)務場景中落地提供相應服務。下圖所示為企業(yè)基于AI數字人技術設計開發(fā)的虛擬主播應用案例。對于報社、電視臺及媒體等業(yè)務方而言,虛擬主播技術很好的滿足了業(yè)務方在自動化視頻生成、媒體內容生成方面的業(yè)務需求,成為了融媒體時代新聞媒體的傳媒利器。同時虛擬主播技術也被應用于新媒體之中,業(yè)務方通過打造公司專屬的虛擬主播形象既可以實現(xiàn)與觀眾的情感互動也保證了公司本身的傳媒影響力,避免了出現(xiàn)以往公眾影響力集中在新聞主播身上的情況。
虛擬機器人案例
企業(yè)在具有將強的互動性虛擬機器人和互動助手在技術上也在進行相關探索。通過STA技術,企業(yè)將虛擬人物與問答系統(tǒng)整合。在用戶使用系統(tǒng)進行交互時,系統(tǒng)將展現(xiàn)出更為具象的虛擬人物進行交流互動。比如公司通過與汽車企業(yè)合作研制的車機虛擬助手目前已實現(xiàn)量產車上的部署。公司同時積極探索數字人技術在線下場景中的應用,通過在銀行大廳、地鐵售票處、醫(yī)院、法庭及企業(yè)展廳中部署AI數字人系統(tǒng)。同時公司可以實現(xiàn)讓智能音箱升級為具有具像化形象的智能系統(tǒng)。公司為不同業(yè)務的用戶群體提供了更為高效便利的咨詢服務及良好的交互體驗。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。