8 月 18 日消息智能語音技術(shù)的飛速發(fā)展,讓 AI 合成語音的聽感更加自然、逼真,讓越來越多企業(yè)實現(xiàn)了與客戶的多模態(tài)互動。基于微軟 Azure 云平臺創(chuàng)建聲音定制服務(wù)定制的專屬個性化聲音,已被廣泛應(yīng)用在諸如語音助手、聊天機器人、在線學(xué)習(xí)、有聲讀物或新聞播報等多種使用場景。
傳統(tǒng)上,完成一個定制聲音時間周期長、復(fù)雜度高。需要發(fā)音人錄制成千上萬句語料作為訓(xùn)練數(shù)據(jù),再由擁有深度神經(jīng)網(wǎng)絡(luò)和語音合成專業(yè)背景的專家針對客戶的語音數(shù)據(jù)進行聲學(xué)模型和語音合成器的訓(xùn)練及調(diào)優(yōu),整個過程往往需要數(shù)月的時間。微軟推出基于深度神經(jīng)網(wǎng)絡(luò)的聲音定制服務(wù),所需訓(xùn)練數(shù)據(jù)更少,只要 300 至 2000 句語料數(shù)據(jù)(約 30-120 分鐘);訓(xùn)練調(diào)優(yōu)的難度和復(fù)雜度更加簡化,即使沒有深度神經(jīng)網(wǎng)絡(luò)和語音合成專業(yè)背景的用戶也可實現(xiàn)自助訓(xùn)練,得到媲美人類發(fā)音的效果。用戶需注冊 Azure 云平臺 Speech Studio,申請獲得深度神經(jīng)網(wǎng)絡(luò)聲音定制權(quán)限后,即可一鍵完成個性化聲音模型的訓(xùn)練,并快速部署 API,適用于各種場景的應(yīng)用開發(fā)。
除平臺自助服務(wù),微軟專家還可為有需求的客戶提供包括聲音畫像設(shè)計、發(fā)音人選擇、錄音指導(dǎo)、模型評估和調(diào)優(yōu)等全流程的語音定制支持和輔導(dǎo),幫助英國 BBC 廣播公司、Swisscom 瑞士電信、美國 AT&T 旗下的華納兔八哥體驗店、美國 Progressive 前進保險公司、Duolingo 多鄰國和國內(nèi)的小米、華人運通等不同行業(yè)的客戶成功打造了自己的專屬定制聲音。
IT之家獲悉,美國 AT&T 體驗店兔八哥語音助手,采用了微軟的聲音定制服務(wù),并以兔八哥配音演員的授權(quán)聲音創(chuàng)建了這一虛擬動畫人物的語音模型,以奇趣的風(fēng)格與顧客對話,回答常見的問題,增強了顧客粘性。
微軟 AI 語音技術(shù)在 AT & T 體驗店的兔八哥上的應(yīng)用:
Flo 是美國 Progressive 前進保險公司打造的虛擬銷售助理,性格樂觀開朗、俏皮可愛。幾年前,美國前進保險公司就邀請專業(yè)配音演員使用微軟的聲音定制服務(wù)為 Flo 配音,讓 Flo 可以自然地交流互動,深得客戶喜愛,打破了大眾對智能語音客服機械感的固有認(rèn)識。
語言學(xué)習(xí)公司多鄰國通過使用微軟的聲音定制服務(wù),為 9 個各具特色的卡通角色分別定制了個性化聲音,讓語言學(xué)習(xí)更加趣味十足。同時,這一服務(wù)支持多語言能力,可以讓每一個卡通角色同時會英語、西班牙語、法語、德語、日語等多國語言。
作為一家平臺型公司,微軟表示,在降低技術(shù)門檻,促進技術(shù)普惠的同時,也在堅持負(fù)責(zé)任地使用人工智能,并以公平、可靠與安全、隱私與保障、包容、透明、負(fù)責(zé)六個基本道德準(zhǔn)則指導(dǎo)人工智能的發(fā)展和應(yīng)用。