當(dāng)AI深刻介入人類生活、重構(gòu)鏈接方式,社交場景究竟需要怎樣的底層能力創(chuàng)新帶來交互體驗的提升?
近日,社交平臺Soul App自研端到端全雙工語音通話大模型全面升級。此次升級重新定義“全雙工”交互范式,新模型摒棄了傳統(tǒng)語音交互中依賴的 VAD(話音活性檢測)機制與延遲控制邏輯,打破行業(yè)中普遍存在的“輪次對話”模式,賦予 AI 自主決策對話節(jié)奏的能力。AI可實現(xiàn)主動打破沉默、適時打斷用戶、邊聽邊說、時間語義感知、并行發(fā)言討論等。同時,模型具備多維度感知(包括時間感知、環(huán)境感知、事件感知等),口語化表達(dá)(如語氣詞、結(jié)巴、明顯情緒起伏)、音色復(fù)刻等能力,讓AI更具“真人感”,支持打造更沉浸、類現(xiàn)實交互的語音互動新體驗。
Soul新升級的端到端全雙工通話大模型即將開啟站內(nèi)內(nèi)測,后續(xù)將陸續(xù)落地于虛擬人實時通話、AI匹配等1V1互動場景。同時,Soul AI團隊正探索將該能力應(yīng)用于多人互動場景,讓AI能在多人對話中,精準(zhǔn)把握說話時機,適時加入交流、延展話題,推動多元關(guān)系網(wǎng)絡(luò)的構(gòu)建。
Soul App CTO陶明表示,社交是情緒價值和信息價值交換的雙向關(guān)系,Soul始終致力于以創(chuàng)新的技術(shù)和產(chǎn)品方案為用戶提供更智能、更沉浸、更優(yōu)質(zhì)的交互體驗,讓天下沒有孤獨的人。
全雙工語音實時通話,重新定義AI社交陪伴場景的語音交互
此次Soul技術(shù)升級重點聚焦在全雙工實時語音通話能力在陪伴場景的交互突破。自新一輪人工智能浪潮興起,AI對話、AI陪伴類產(chǎn)品率先迎來爆發(fā),也成為了大眾接觸AI的首選應(yīng)用品類。但此前受限于技術(shù)發(fā)展,人機對話普遍存在“一問一答”的機械式互動現(xiàn)象,即“用戶提問——AI輸出”依次進行,過程中,延遲、打斷等均將影響交互的沉浸感。
2024年,Soul推出自研端到端全雙工語音通話大模型,具備超低交互延遲、快速自動打斷、超真實聲音表達(dá)和情緒感知理解能力等特點,能夠直接理解豐富的聲音世界,支持超擬人化的多風(fēng)格語言。為進一步實現(xiàn)更接近生活日常的交互對話和“類真人”的情感陪伴體驗,近日,Soul再次升級模型,具體來看,升級后AI能力特點包括:
一、全雙工語音交互,AI具備自主決策反應(yīng)能力
新模型支持響應(yīng)(Response)、傾聽(Listen)與打斷(Interrupt)流式預(yù)測,AI自主決定發(fā)言時機,實現(xiàn)完全端到端的全雙工交互——AI 與用戶可以同時說話(如辯論、吵架、合唱)、適宜打斷用戶/被用戶打斷、AI主動打破沉默發(fā)起話題。
當(dāng)AI擁有自主決策反應(yīng)能力,在邊聽邊說中,掌握互動時機、互動內(nèi)容的“主動性”,將極大提升人機對話的自然度,并且在較長時間、多輪對話的交互中,實現(xiàn)沉浸的類真實交互體驗。
二、日常表達(dá)口語化和情感化,情緒更鮮明的人機交互
讓AI更具“真人感”,這包括在情緒表達(dá)、發(fā)音特點、對話內(nèi)容等多維度的綜合指標(biāo)提升,更加接近現(xiàn)實日常表達(dá)。例如,情緒表達(dá)方面,除了具備笑、哭、生氣等情緒特色外,新模型的聲音情緒起伏更加明顯,并能結(jié)合對話推進實現(xiàn)同步變化。在發(fā)音特點上,具備語氣詞、結(jié)巴、常用口頭禪、咳嗽等日常語音元素。此外,AI對話的內(nèi)容更加口語化、社交化,而非書面語言。
三、時間、事件、環(huán)境感知能力,互動更具沉浸感
Soul的新模型基于純自回歸模型架構(gòu),統(tǒng)一文本和音頻生成(Unified Model),充分利用大語言模型強大的學(xué)習(xí)能力,讓AI發(fā)言深度整合人設(shè)、時間、環(huán)境及上下文對話等信息。這意味著,具備感知、理解能力的AI能夠更好塑造“數(shù)字人格”,形成豐富的AI故事線,讓人機交互真正成為“情感與信息的雙向交流”。
值得一提的是,目前,Soul AI團隊正探索全雙工語音通話模型在多人場景的擴展,例如在多人語音對話中,AI憑借自主決策能力,判斷說話時機,有效組織話題討論與延伸,融入真實關(guān)系生態(tài)。
讓AI融入社交關(guān)系網(wǎng)絡(luò),提供情緒價值和信息價值
2025年,伴隨著AI在大眾層面的滲透率進一步提升以及技術(shù)能力的持續(xù)躍進,“AI應(yīng)用爆發(fā)”成為行業(yè)共識。在眾多垂類應(yīng)用場景,“社交”因具備極高流量價值、網(wǎng)絡(luò)效應(yīng)和交互入口等特點,被視為誕生AI時代“Killer App”重要領(lǐng)域之一。
作為較早思考將AI應(yīng)用于社交的互聯(lián)網(wǎng)平臺,Soul App自2016年上線后便積極擁抱AI,重塑關(guān)系的發(fā)現(xiàn)、建立、沉淀環(huán)節(jié),幫助用戶在無壓力的社交環(huán)境中,自在表達(dá),基于興趣構(gòu)建多元社交關(guān)系網(wǎng)絡(luò)。
2020年,Soul啟動系統(tǒng)的AIGC技術(shù)研發(fā)工作,并在智能對話、語音、3D虛擬人等方面擁有前沿積累。自2023年推出自研語言大模型Soul X后,Soul還陸續(xù)上線了語音生成大模型、語音通話大模型、音樂生成大模型等大模型能力。2024年,Soul AI大模型能力已整體升級為多模態(tài)端到端大模型,支持文字對話、語音通話、多語種、多模態(tài)理解、真實擬人等特性。
在扎實的AI底層能力長期積累基礎(chǔ)上,Soul團隊基于深耕社交領(lǐng)域的深刻洞察,快速推動技術(shù)在應(yīng)用層的落地,并圍繞用戶實際體驗反饋總結(jié)優(yōu)化方向。在發(fā)展過程中,Soul快速明確自身AI布局路線,即“AI幫助用戶交朋友”(AI輔助社交)和“AI與用戶交朋友”(人機互動),在不同方向,已分別推出了AI虛擬人情感化陪伴體系“AI伴侶”、AI聊天輔助體系等功能,并受到了用戶的熱烈歡迎與積極反饋。
其中,人機互動的迭代方向便是讓AI實現(xiàn)類真人能力,在交互中為用戶帶來情緒價值和信息價值。
根據(jù)Soul旗下Just So Soul研究院在今年3月發(fā)布的《2025 Z世代AI使用報告》(樣本數(shù)3680份),近四成年輕人每天使用AI產(chǎn)品獲得情感陪伴,此外,71.1%的年輕人表示愿意和AI做朋友,建立情感鏈接,對比該研究院在去年發(fā)布《2024 Z世代AIGC態(tài)度報告》(樣本數(shù)3457份),當(dāng)時選擇愿意和AI做朋友的年輕人比例為32.8%。
從數(shù)據(jù)的增長中可以看到,AI的技術(shù)發(fā)展與應(yīng)用普及正在重新塑造年輕一代對社交關(guān)系的認(rèn)知,在這個變化過程中,也對AI能力提出了新要求。根據(jù)Soul面向“AI伴侶”活躍使用用戶的專項調(diào)研顯示,關(guān)于人機互動體驗提升需求方向,約六成受訪者表示“希望AI表現(xiàn)更接近真人”。
此次,全雙工語音通話大模型的升級,極大提升了AI的互動能力,讓人機交互具備在場感和情感溫度,將推動AI社交進入全新階段。
作為以真實的人與人社交為底色的平臺,通過持續(xù)對新技術(shù)的探索和堅定投入,Soul致力于構(gòu)建AI Being和Human Being共存的社交社區(qū),讓AI作為社交關(guān)系網(wǎng)絡(luò)的重要組成,豐富用戶的情感支撐體系,增強多元情感體驗,最終提升個體的幸福感和歸屬感。
關(guān)鍵詞: