在電腦屏幕上,手指往上一劃,播放出來的聲音尾音揚起,似少年般俏皮清亮起來;手指往下一掃,尾音變成降調,聲音也瞬間沉穩了……這只是智能語音領域里一個簡單的小技術。
一個人無聊時,和人工智能設備聊聊天,它聽得懂,還會回答你“無理取鬧”的問題,這是智能語音在發揮作用;用微信說一段話,先轉換成文字再發送給對方,這種禮貌靠智能語音就能輕松實現。當然,如果你能邀請海綿寶寶錄上300句話,智能語音就能模擬出它的音色、語速,每天陪你聊天,這也是智能語音的研究領域。
聲音,在智能加持下,愈發迷人。而這背后,是一群研究人員默默讀聲、辨聲、擬聲。楊明祺是其中的一位,他所在的猿輔導人工智能實驗室研究團隊,剛剛斬獲了2021年聲學、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰旗艦任務——多說話人多風格音色克隆大賽(M2VoC)子賽道第一名。這表明,我國在智能語音的部分關鍵核心技術和應用上取得了重要進展。
聲聲入耳
今年1月29日,還有不到一周就是小年兒了,楊明祺和同事守在電腦前,點下發送鍵,正式提交了2021年聲學、語音和信號處理國際會議(ICASSP2021)的信號處理挑戰旗艦任務——多說話人多風格音色克隆大賽(M2VoC)的參賽作品——一段語音合成音頻。
當天,楊明祺給在承德老家的父母打了個電話:不回家過年了。一方面是響應防疫要求,另一方面也因為工作忙。“家人都理解,也支持。”他頓了一下,自己加了一句解釋,“我努力的方向是能模擬出有溫度的聲音,讓家人的聲音變得可以隨身攜帶。遇到類似情況,可能就會給更多人帶去溫暖。”
楊明祺和人對話時,有著自己特有的“職業病”——會貼心地將專業術語翻譯成白話:“語音合成(TTS)簡單地說,就是輸一個文本給電腦,然后它產生一個語音。在日常生活中,我們經常會驚嘆于手機的語音助手、智能機器人能夠‘說出’非常逼真、自然的話,幾乎可以以假亂真。但這種令人驚嘆的能力其實是通過單一說話人的大量語音數據集‘訓練’而成的。我們此次參賽,是要挑戰多說話人和多風格的語音合成,特別是在可利用資源極少的情況下,盡可能讓語音的質量、發音準確率、和目標說話人的相似度這幾個方面都令人滿意。”
作為國際語音領域為數不多的頂級會議,M2VoC挑戰賽為參賽者提供了一個通用的數據集以及一個公平的測試平臺。參賽者需要做的,是利用大賽提供的聲音樣本和平臺,研究并完成語音克隆任務,包含少樣本賽道和極少樣本賽道兩個任務。楊明祺團隊參加的是極少樣本賽道中的子賽道,他解釋說:“在比賽中,主辦方會提供3個具有不同講話風格的目標說話人,每個說話人有5個語音數據樣本。我們要做的,就是對這3個目標說話人的聲音進行克隆,形成音頻,用于最終測試。在最終測試環節,主辦方會對收集到的語音合成系統進行評估,系統轉化的語音與樣本相似度越高,發音越準確,得分就越高。”
如果將這場比賽描述得再刺激一點兒,就是楊明祺和團隊其他4名同事要從主辦方提供的僅有的5句樣本中,抓取到盡可能多的聲音特色,再原汁原味地“復刻”它。而正常情況下,拷貝一個聲音,大約需要有300句語音樣本進行校驗、建模和測試。“一般來說,正常數量的樣本是300句、半個小時左右的語音,而少樣本只有100句,我們挑戰的極少樣本僅有5句。”
如此苛刻的條件,楊明祺和團隊的備賽時間卻只用了1周左右。他還沒解釋,就先笑著賣了個關子:“因為有外援。”
與來自科研院所、高校的參賽隊伍不同,楊明祺和團隊在比賽期間并不能全身心投入研究,他們還有很多日常工作需要完成,但正是工作中點滴積累的經驗幫了大忙。“這次參賽算是我們研究團隊的一次檢驗考,備賽的大部分模塊使用的都是日常工作中小組共同設計完成的產品,這些‘養熟’的模型就是最佳外援。”
聰者聽于無聲,明者見于無形。幕后的努力,往往是研究人員鮮少提及的,因為在他們眼里這是一件再普通不過的事兒。在追問下,楊明祺說,“養熟”一個模型,背后需要積累的數據樣本是幾十人到上百人的聲音解讀。“時間越長越好,這樣抓取的聲音特征就越準確。”他打了個比方,先讓100個人說上足夠時長的話,來養成一個模型,當模型足夠成熟,可以快速準確抓取和識別不同聲音樣本特征了,再加入主辦方提供的5句樣本,“讓模型帶著特定的樣本‘訓練’,合成音頻,可以在保證機器‘發音’標準的基礎上,讓克隆出的聲音音色更接近說話人的本聲。”
大賽的真人審核時間持續了大約半個月。這期間,所有參賽隊伍提交的音頻會被打亂,由普通人聽完后進行評分。“這種將文本轉換成自然語音的一類技術,是智能語音領域的前沿技術,在語音助手、信息播報、有聲讀物等方面具有重要的應用價值。而且最終都是要服務人的,所以人耳當裁判最公平。”楊明祺說,平時團隊在養成模型的過程中,也會請許多人來當檢驗官,“他們不需要在聽力上有任何特長,甚至越普通越好。如果隨便一個人都能認可我們模擬的聲音,我們的目的就達到了。”
在一次次塑造聲音的過程中,楊明祺等人發現,語音合成中的韻律信息至關重要。“韻律把控得好,可以讓語音合成效果更加流暢、自然、有節奏感,也算是團隊的秘密武器。”楊明祺耐心解釋說,畢竟聲音是有感情的,讀音是否準確、聲音是否流暢,千人千感,聽得舒服,是一個產品是否過關的關鍵。
最終,楊明祺和同事們從極少樣本子賽道的20多支隊伍中脫穎而出,斬獲冠軍。
“聲”臨其境
聽上去絕對炫酷、科技感滿分的智能語音領域,楊明祺選擇入行的理由卻是:這行夠傳統。他解釋說,自己本科和研究生專業研究方向是信號處理,臨畢業時,他才決定“轉專業”。理由給得更是簡單且真誠——AlphaGo(阿爾法圍棋)人工智能機器人在人機對決中獲勝的消息,讓很多人都希望投身人工智能領域研究。2019年,楊明祺畢業找工作時就是奔著這個方向去的。
“當時,人工智能領域的研究主要包括智能語音、圖像識別、自然語言處理幾個方向,后兩種備受追捧。而智能語音的研究門檻較高,從事的人也比較少,而且使用的算法、技術都是十幾年甚至幾十年積累起來的,不會像其他領域一樣頻繁迭代。”他俏皮地總結,這也算是個“偷懶”的選擇。
真正入行,靠的也是最傳統的方式——公司有師父帶,課本是網上的各種研究論文。“我們會給論文作者發郵件,討論一些問題,絕大部分都收到了回復。有些論文的作者是企業工程師,在不涉及商業機密的前提下,他們會盡自己所能伸出援助之手。這些無聲的幫助,讓我們覺得特別溫暖。”如今,楊明祺也會收到各種郵件,只要是學術研討類的,他也會無聲地傳遞自己的溫暖。
楊明祺清楚地記得,自己接到的第一份作業——給聲碼器加速。“簡單來說,我們做的語音合成,就是兩個過程。第一個過程是分析聲音,標注特征,形成文本。第二個過程是用聲碼器,按需輸出,生成新的聲音。”他用手比劃著解釋,正常情況下,聲碼器翻譯一段話要從頭到尾進行運算,相當于電路中的“串聯”,這種方法耗時較長。由他設計改進后,把一段話分解成幾段,同時并行運算,最后合成,相當于“并聯”,節省了運算時間,“雖然是個小改動,但是研發效率提高了,獲得了團隊內部一致好評。”
其實試想一下,最簡單的TTS,就是讀文本,曾經有官方發布過數據,目前漢字的總數已經超過了8萬個,而常用的只有3500字。如果找人將這3500個字都念一遍,然后拼字組句,也可以實現“智能輸出”。不過現實生活中,每種聲音都有自己的“脾氣”,而這些也成了研發人員需要攻克的難題,其中最令楊明祺頭疼的是識字。幫助機器識字,需要研發人員將每一句話翻譯成機器能夠看懂的語言。最常用的方法就是把所有字都轉換成漢語拼音。這背后花費的精力,是楊明祺等研發人員鮮少提及的。
多音字,是他們面對的頭號難題。“一開始真沒有想到,一段話會有那么多的多音字。”楊明祺說,一次合成音頻時直接就露了怯。第一批音頻出來之后,陰陽怪調,仔細一聽發現是多音字惹了簍子。他舉例,最簡單的“一”字就有好多個音:一個人,讀二聲;一只碗,讀四聲;一二三四,讀一聲。
類似的例子,在日常講話時習以為常,但在嚴格按規章辦事的程序世界,這就成了一件棘手的事兒。楊明祺等人最初設計的程序,只是簡單按字典標注的漢語拼音給每個字注音,后來考慮到多音字問題,團隊開始給程序增寫規矩。攻關過程中,一遍遍重復聽音頻、摳字音,讓楊明祺對聲音格外敏感。其他團隊成員沒意識到的小問題,都成了他特別關注的點,甚至細到“口語需要的變音”。他解釋說:“比如‘你好’這個詞,按照標準拼音,這兩個字都是三聲,但更多時候我們會自然而然地把‘你’字讀成二聲。”
還有標點符號的處理,數字、字母的處理,這些都需要用各種細致的規范來完成。當然,還包括分詞斷句的技術。解決辦法,在他的描述下也變得很簡單:不斷試錯,嘗試了各種辦法,反復調整模型,直到效果被人耳認可。
“我們希望合成的語音不僅準確,還能實現讓人‘聲’臨其境的感覺。”楊明祺說,除了成人用戶,合成語音在智慧教育方面的應用也越來越廣泛,面向正在成長階段的兒童和學生,如果讀錯音會對他們產生誤導,所以團隊對發音的正確率摳得特別嚴。
“聲”而有用
如今,和楊明祺并肩作戰的研發同事有二三十人。而5年前,這個團隊才只有4個人。夏龍是元老,現在是猿輔導人工智能語音實驗室負責人。他回憶,2016年他從廣告推薦小組離開,開始“零起點”攻堅智能語音研發。
“4個人沒有一個是智能語音專業的,突然轉到語音組,能做什么、怎么做,大家都有點兒蒙。”夏龍很坦誠地說,開始多少帶著點兒不情愿,但團隊已經建起來了,只能硬著頭皮往上沖,“我開始帶著大家天天啃論文,進行頭腦風暴……學著學著,發現智能語音還挺好玩兒的。”
建組半年后,第一個任務來了——研發一個古詩詞背誦檢測系統。而這個創意來自同事的一次抱怨:“孩子背古詩,家長得守在邊上監督,逐字逐句地檢查。要是有個工具能自動檢查就好了,給家長老師都減減負。”
聽者有心。夏龍決定用這個應用場景,檢驗一下半年的學習成果。
第一步是教電腦“背詩”,這是個大工程。中小學語文課本涉及的所有古詩詞背誦篇目,首先要找到專業的語文教師一首一首地準確朗讀出來,并逐字標注正確的拼音,再由夏龍團隊將每一個拼音轉化成代碼語言。
在研發過程中,為了檢查電腦學會的篇目是否準確,夏龍和同事還會時常扮演一下學生的角色,幫助機器進行自測。“背誦詩詞的時候,我們每發出一個字的讀音,就會被系統自動識別,并和它已經記住的字音進行比對,如果出現字音錯誤、漏讀等問題,顯示器上會實時將錯誤的地方標紅。”夏龍打趣說,上學時候都沒這么認真背過課文,真的是學了不少知識。“比如李白的《將進酒》,‘將’字一直以為是讀jiāng,后來被系統糾錯了,原來正確的應該念qiāng。”
一個月后,夏龍團隊研發的第一款智能語音產品順利投入應用。之后一年,團隊根據用戶反饋情況,對產品進行了迭代升級,詩詞背誦檢測準確率不斷提高。夏龍笑言:“我們團隊的詩詞水平直線上升。”
人工智能語音實驗室的陣容也不斷擴大。如今,團隊成員有30人,平均年齡28歲左右,每個人都有各自擅長的研究領域,讀聲辨聲變得更專業。
最令夏龍自豪的是,每逢中高考語文考試前一天,古詩詞背誦檢測系統的用戶需求尤為明顯,“我們得加機器才能完成龐大的運算量。”
這種“聲”而有用,還體現在很多地方。楊明祺舉例說,以前如果找國外的教師來錄制英語聽力素材,由于時差等原因,一來一回,制作周期需要一周左右。如果后期有修改,反反復復的時間會更長。但現在通過智能語音模型,一段大約3分鐘的文本,幾秒鐘時間就可以實現語音轉換,而且保證原汁原味。
楊明祺給自己設定了今年的研究方向——為聲音賦情。他說,想比較完整地合成一種個性化的聲音,至少需要300句話、半個小時以上的聲音樣本,才能讓電腦學會,以后看到任何文本,都能自然而然地用這個聲音讀出來。這個過程并不是簡單地找樣本、建模型、跑數據就可以出成果的。
“比如有些場景需要聲音情感飽滿度高一點,有的時候希望用一個小男孩清脆一點的聲音,有的時候希望要一個溫柔一點的語氣。而每一個需求,都需要幕后有匹配的人去錄制聲音樣本。以目前業界現有的技術,對聲音情緒進行調整,基本需要逐字去操作,工程非常繁瑣。”楊明祺說,我們希望可以最終實現“一鍵調節”,甚至連高興、悲傷的等級都可以設定,不過辨別聲音里的情緒,給這些看不見摸不著的感覺下指標,難度可想而知。“這是我們努力的方向。”
每天雖然面對著冷冰冰的電腦,研發人員的心卻比誰都細致、柔軟。夏龍說:“如果眼光放長遠一些,隨著人工智能和其他前沿技術的進步,可能會給社會帶來更多積極影響。”可預見的未來,有情感的聲音能夠被進一步應用到教育、醫療等行業和領域中,可以服務配音合成、智能出題、智能客服諸多應用場景,不斷刷新行業效率。
人工智能技術還可以打破地域資源的限制,讓農村地區的孩子也可以享受和城市孩子一樣的教學,和“外教”交流,學習純正的發音。楊明祺說:“我們可以通過語音合成、智能語音評測技術,開發語言教學系統,構建標準化的語音教學環境,幫助解決農村等邊遠地區的學科因師資力量短缺而難以開展的問題。”
夏龍說,讓機器學會特定聲音,需要花費大量的時間,其中需要工程師做大量的“標注”工作,幫機器完成學習。他和團隊正在探索和努力的方向,是要用盡可能少的人力、物力成本,加快機器學會發聲的進度,讓聲音更智能。
關鍵詞: 先聲奪人