4月2日消息,據外媒報道,亞馬遜今天表示,將在2019年9月發布超過400萬字、針對自然語言處理研究的數據樣本。這個樣本名為“主題聊天數據集”(Topical Chat),其中包括眾包人類對話語料庫,并將其提供給參加年度Alexa Prize Socialbot大挑戰的團隊。
亞馬遜稱,主題聊天數據集由21萬多個主題會話,超過410萬字,這使其成為世界上最大的公共會話和知識數據集之一。語料庫的每個會話和會話轉向都與提供給人群工作者的知識相關聯,并且所涉及的知識都是從與實體相關各種“非結構化”和“松散結構”的文本資源中收集的。
亞馬遜資深首席科學家迪利克·哈卡尼-圖爾(Dilek Hakkani-Tur)在博文中明確表示,這些會話都不是與Alexa客戶互動的結果。
哈卡尼-圖爾說:“這些數據的收集目標是使下一步研究能夠在基于知識的神經反應生成系統中進行,解決其他公開數據集沒有解決的自然對話中存在的困難挑戰。這將使研究人員能夠專注于人類在主題之間的轉換、知識的選擇與豐富,以及將事實和意見納入對話,并支持出版高質量、可重復的研究。”
亞馬遜表示,競爭Alexa Prize Socialbot大獎的團隊將可以訪問擴展版本的數據集,其名稱為“擴展主題聊天數據集”,其中包括正在進行的收集和標注的結果。
在今天的聲明發布大約六個月前,亞馬遜就曾開放過一個數據集,可以用來訓練AI模型,以識別不同語言和腳本類型的名稱。它被稱為“多語種命名實體音譯系統”,包括近40萬個名字,語言包括摘自維基百科的阿拉伯語、英語、希伯來語、日語片假名和俄語。(騰訊科技審校/金鹿)
關鍵詞: