這不僅是因為翻譯機產(chǎn)品種類的火爆,在京東搜索翻譯機,能夠出現(xiàn)超過7300件商品。在這背后,則是越來越多的玩家爭相步入該市場:科大訊飛自2016年底便推出曉譯翻譯機,經(jīng)過2017年底的升級后,于今年4月推出訊飛2.0翻譯機;今年1月,搜狗公司的旅行翻譯寶正式亮相,3月在京東正式啟動預售;5月,小米生態(tài)鏈公司香蕉出行推出魔芋AI翻譯機,并在微軟Build開發(fā)者大會上得以展示;7月19日,獵豹移動發(fā)布AI翻譯產(chǎn)品——小豹AI翻譯棒,為翻譯機市場再添戰(zhàn)火。
除此之外,據(jù)記者不完全統(tǒng)計,目前市面上還有準兒翻譯機、網(wǎng)易有道翻譯蛋、百度途鴿翻譯機等。甚至,有智能手機廠商還專門推出主打翻譯功能的手機。
“智能語音目前最實在落地的場景便是翻譯,如果產(chǎn)品確實能夠做好的話,市場空間很大。”人工智能研究中心副總經(jīng)理向陽向記者表示,“不過現(xiàn)在許多產(chǎn)品性能并不足夠穩(wěn)定,效果也不太突出,仍有待進一步改進。”
技術(shù)趨成熟
翻譯機的工作流程總體可以解讀為三個步驟。
首先是翻譯機內(nèi)置麥克風辨識使用者說話的語言及內(nèi)容,并將語音轉(zhuǎn)換為文字,然后通過機器翻譯引擎進行文字對文字的翻譯,將原始語言轉(zhuǎn)化為目標語言。最后,將翻譯的內(nèi)容進行語音合成并播放出來。
因此,翻譯機的工作離不開三項技術(shù)核心:自動語音識別(Automatic Speech Recognition)、機器翻譯(Machine Translation)和語音合成(Speech Synthesis,或稱Text-to-Speech,TTS)。
其中,語音識別就好比“機器的聽覺系統(tǒng)”,該技術(shù)讓機器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎睢W?009年以來,將機器學習領(lǐng)域深度學習研究引入到語音識別聲學模型訓練,使用帶RBM預訓練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學模型的準確率,同時借助大數(shù)據(jù)語料的積累,語音識別技術(shù)取得突飛猛進的進步。
在此方面,微軟公司研究人員率先取得了突破性進展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語音識別錯誤率降低了30%。近幾年來,各大科技巨頭自動語音識別能力幾乎均提升至95%以上。根據(jù)Gartner預測,到2020年,人類30%的瀏覽活動將由語音識別系統(tǒng)幫助完成。
語音合成又名文語轉(zhuǎn)換,是將文本轉(zhuǎn)換為語音的技術(shù)。如果說語音識別技術(shù)是讓計算機學會“聽”人的話,將輸入的語音信號轉(zhuǎn)換成文字,那么語音合成技術(shù)就是讓計算機程序把我們輸入的文字“說”出來,將任意輸入的文本轉(zhuǎn)換成語音輸出。從語音合成發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復雜度和自然度是合成技術(shù)的技術(shù)難點所在。不過隨著技術(shù)演進,當前語音合成技術(shù)在音質(zhì)、復雜度和自然度方面已有了極大改善。
機器翻譯同樣在近幾年內(nèi)經(jīng)歷了劇變。在2013年之前,基于統(tǒng)計模型的機器翻譯一直都是主流,此后基于人工神經(jīng)網(wǎng)絡(luò)的機器翻譯(NMT, Neural Mahcine Translation) 逐漸興起。
記者了解到,人工神經(jīng)網(wǎng)絡(luò)翻譯擁有一個有海量節(jié)點的深度神經(jīng)網(wǎng)絡(luò),通過傳導運算,實現(xiàn)生成另一種語言的譯文。2016年底,谷歌翻譯開發(fā)并使用了Google神經(jīng)機器翻譯系統(tǒng)(GNMT, Google NMT)。與之前的統(tǒng)計模型相比,神經(jīng)網(wǎng)絡(luò)機器翻譯具有譯文流暢、準確易理解、翻譯速度快等優(yōu)點。
在種種技術(shù)成熟的加持下,如今的翻譯機也具備了相當?shù)膶嵙ΑS嶏w翻譯負責人翟吉博向記者透露,通過語音識別、語義理解等AI技術(shù),訊飛翻譯機2.0語音識別準確率能夠達到98%,目前已能夠?qū)崿F(xiàn)對34種語言的即時互譯;訊飛語音引擎也已支持22種中國方言識別,該能力將逐步整合進訊飛翻譯機,目前2.0產(chǎn)品支持粵語、河南話、四川話、東北話四種方言。
搜狗相關(guān)人士則向記者介紹,搜狗翻譯硬件采用了搜狗相關(guān)AI技術(shù)。在語音識別方面,搜狗可做到準確率超過98%。
市場需求大
相關(guān)智能語音技術(shù)已基本成熟,而之所以催生出翻譯機這一硬件形態(tài),則源于天然巨大的市場需求。
據(jù)《2017年中國出境旅游大數(shù)據(jù)報告》顯示,2017年中國公民出境旅游突破1.3億人次,花費達1152.9億美元,中國已成為泰國、日本、韓國、越南、俄羅斯等多個國家的第一大入境旅游客源地。但一直以來,語言不通是出境游人群最大的痛點。
“翻譯本身是一個重大的市場需求。”搜狗副總裁吳滔表示,“中國每年出境人次很高,旅行、留學、商務等各類跨國交流需求都很旺盛,中國每年的出境人數(shù)在全球范圍內(nèi)處在非常高的位置,人們對翻譯機的需求一直都在,跨越語言的交流都需要翻譯來幫忙,但是之前是受限于技術(shù)無法實現(xiàn)很好的翻譯效果。隨著技術(shù)的進步,有了更好的翻譯模型,能把翻譯做得更好、更準。所以放眼未來,翻譯產(chǎn)品的受眾不會是窄眾。”
然而,在手機翻譯軟件盛行的情況下,為何一定要以硬件形態(tài)出現(xiàn)?翟吉博表示,軟硬件一體化產(chǎn)品能夠更好解決真實場景的用戶需求。“我們的用戶大多是用過翻譯APP,但在使用過程中感受并不佳。”他向記者解釋道,例如,在國外嘈雜的環(huán)境下,手機對音源的識別率并不高;若通過文本輸入再翻譯,則非常耗時且便捷性不夠。
此外,在翟吉博看來,手機作為私人物品,并不符合人與人當面交流的溝通工具的屬性,在國外復雜網(wǎng)絡(luò)環(huán)境下,手機APP也未必能達到好的體驗。因此,他認為,在真實環(huán)境下,軟硬件一體化產(chǎn)品是更優(yōu)解決方案。
從產(chǎn)品的熱銷情況可一窺其火爆程度。據(jù)翟吉博介紹,目前訊飛翻譯機2.0在京東平臺擁有99%的好評率,銷售額破億。搜狗方面人士則告訴記者,搜狗旅行翻譯寶在開售一小時后各地陸續(xù)售罄,當天銷售額破1000萬。
不過,圍繞當下愈演愈烈的翻譯機戰(zhàn)場,各家也在基本的翻譯功能之上,加入更優(yōu)化的體驗。翟吉博強調(diào),定義AI+翻譯的四大標準包括清、懂、準和美。訊飛翻譯機2.0不僅做到了語音和物件、語音和圖像翻譯,更在離線翻譯、方言翻譯等A.I。翻譯最具有難度的環(huán)節(jié)上持續(xù)發(fā)力。
與此同時,針對真實使用環(huán)境,訊飛翻譯機擁有諸多考慮。例如,嘈雜環(huán)境下,翻譯機在硬件和算法上進行了特殊處理,在網(wǎng)絡(luò)情況不穩(wěn)定時翻譯機可變云端翻譯為NMT離線翻譯功能。在對背景噪音處理上,翻譯機通過四麥拾音降噪,幫助更好地識別人聲。
搜狗方面則表示,搜狗翻譯寶目前支持中英日韓 4 種語言的離線互譯,并推出拍照翻譯功能,幫助翻譯路牌、菜單等。
不過目前,翻譯機仍處于新興市場,且價格普遍徘徊在幾百元至數(shù)千元不等,而大多數(shù)游客每年出國旅游不過兩三次,線下使用頻率不高。“目前翻譯機垂直市場中,用戶對企業(yè)的認知還需要一段時間。”吳滔表示,“不過未來隨著用戶認知的提升,翻譯硬件市場逐步打開,我相信這個市場將會非常巨大。”
關(guān)鍵詞: