3月20日,北京智源人工智能研究院舉辦“智源悟道1.0 AI研究成果發(fā)布會(huì)暨大規(guī)模預(yù)訓(xùn)練模型交流論壇”,并發(fā)布我國(guó)首個(gè)超大規(guī)模智能模型系統(tǒng)“悟道1.0”。
據(jù)悉,“悟道1.0”由智源研究院學(xué)術(shù)副院長(zhǎng)、清華大學(xué)唐杰教授領(lǐng)銜,帶領(lǐng)來(lái)自北京大學(xué)、清華大學(xué)、中國(guó)人民大學(xué)、中國(guó)科學(xué)院等單位的100余位AI科學(xué)家團(tuán)隊(duì)聯(lián)合攻關(guān),取得了多項(xiàng)國(guó)際領(lǐng)先的AI技術(shù)突破,形成超大規(guī)模智能模型訓(xùn)練技術(shù)體系,訓(xùn)練出包括中文、多模態(tài)、認(rèn)知、蛋白質(zhì)預(yù)測(cè)在內(nèi)的系列模型,勇闖通用智能發(fā)展前沿,構(gòu)建我國(guó)人工智能應(yīng)用基礎(chǔ)設(shè)施。同時(shí),與龍頭企業(yè)共同研發(fā)工業(yè)級(jí)示范性應(yīng)用,加快大規(guī)模智能模型應(yīng)用生態(tài)建設(shè)。
北京市科委、中關(guān)村管委會(huì)副主任許心超介紹,北京將依托在人工智能領(lǐng)域的科技資源和產(chǎn)業(yè)發(fā)展優(yōu)勢(shì),支持建設(shè)智源研究院等一批世界一流新型研發(fā)機(jī)構(gòu),前瞻部署人工智能基礎(chǔ)研究,加強(qiáng)關(guān)鍵核心技術(shù)攻關(guān),推動(dòng)人工智能占先。
北京市超前部署通用智能發(fā)展,支持智源研究院牽頭建設(shè)“超大規(guī)模人工智能模型訓(xùn)練平臺(tái)”,“悟道1.0”即為該平臺(tái)的重要內(nèi)容,通過(guò)研發(fā)超大規(guī)模信息智能模型和生命模型,推動(dòng)電子信息、生物醫(yī)藥等基礎(chǔ)科學(xué)科研范式變革,加速科學(xué)研究進(jìn)程。同時(shí),該平臺(tái)將推動(dòng)創(chuàng)新企業(yè)及個(gè)人開發(fā)者基于大模型構(gòu)建智能化水平更高的場(chǎng)景應(yīng)用,賦能實(shí)體經(jīng)濟(jì)智能化升級(jí),促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展。
“悟道”模型技術(shù)委員會(huì)主任、智源研究院學(xué)術(shù)副院長(zhǎng)唐杰教授介紹了“悟道”模型的戰(zhàn)略布局及階段性成果。“悟道1.0”先期啟動(dòng)了4個(gè)大模型的研發(fā):以中文為核心的大規(guī)模預(yù)訓(xùn)練模型“悟道·文源”、首個(gè)公開的中文通用圖文多模態(tài)預(yù)訓(xùn)練模型“悟道·文瀾”、我國(guó)首個(gè)具有認(rèn)知能力的超大規(guī)模預(yù)訓(xùn)練模型“悟道·文匯”、超大規(guī)模蛋白質(zhì)序列預(yù)測(cè)預(yù)訓(xùn)練模型“悟道·文溯”。
其中,“悟道·文源”的目標(biāo)是構(gòu)建完成全球規(guī)模最大的以中文為核心的預(yù)訓(xùn)練語(yǔ)言模型,在中英文等多個(gè)世界主流語(yǔ)言上取得最好的處理能力,在文本分類、情感分析、自然語(yǔ)言推斷、閱讀理解等多個(gè)任務(wù)上超越人類平均水平,探索具有通用能力的自然語(yǔ)言理解技術(shù),并進(jìn)行腦啟發(fā)的語(yǔ)言模型研究。目前,“悟道·文源”模型參數(shù)量達(dá)26億,具有識(shí)記、理解、檢索、數(shù)值計(jì)算、多語(yǔ)言等多種能力,并覆蓋開放域回答、語(yǔ)法改錯(cuò)、情感分析等20種主流中文自然語(yǔ)言處理任務(wù)。
“悟道·文瀾”的目標(biāo)是突破基于圖、文和視頻相結(jié)合的多模態(tài)數(shù)據(jù)的預(yù)訓(xùn)練理論難題,并最終生成產(chǎn)業(yè)級(jí)中文圖文預(yù)訓(xùn)練模型和應(yīng)用,并在多個(gè)評(píng)測(cè)應(yīng)用上超過(guò)國(guó)際最高性能。目前,“悟道·文瀾”模型參數(shù)量達(dá)10億,模型性能已到達(dá)國(guó)際領(lǐng)先水平,并已對(duì)外開放API。
發(fā)布會(huì)上,為了展示如何使用“悟道·文瀾”模型,智源研究院聯(lián)合中國(guó)人民大學(xué)高瓴人工智能學(xué)院和一覽群智公司,推出了兩款基于該模型的小應(yīng)用,其中“賦魂”AI小程序,可以為用戶上傳的照片配文,“AI心情電臺(tái)”小程序可以利用圖片和歌詞的相關(guān)性,為用戶上傳的照片搭配最合拍的音樂(lè)。
“悟道·文匯”則致力于從認(rèn)知的角度研究通用人工智能中一系列更本質(zhì)問(wèn)題,側(cè)重進(jìn)一步提升和發(fā)展預(yù)訓(xùn)練模型基于邏輯、意識(shí)和推理的認(rèn)知能力,目標(biāo)是研發(fā)出千億至萬(wàn)億級(jí)別參數(shù)量的、更通用且性能超越國(guó)際水平的預(yù)訓(xùn)練模型,搭建預(yù)訓(xùn)練模型體系,同時(shí)形成認(rèn)知智能生態(tài)。目前,“悟道·文匯”模型的參數(shù)規(guī)模達(dá)113億,在多項(xiàng)任務(wù)中“悟道·文匯”的表現(xiàn)已經(jīng)接近突破圖靈測(cè)試,通過(guò)簡(jiǎn)單微調(diào)就已經(jīng)實(shí)現(xiàn)AI作詩(shī)、AI作圖、AI制作視頻、圖文生成、圖文檢索、復(fù)雜推理。
“悟道·文溯”最終目標(biāo)是以基因領(lǐng)域認(rèn)知圖譜為指導(dǎo),研發(fā)出十億參數(shù)規(guī)模、可以處理超長(zhǎng)蛋白質(zhì)序列的超大規(guī)模預(yù)訓(xùn)練模型,在基本性能、可解釋性和魯棒性等多個(gè)方面達(dá)到世界領(lǐng)先水平。
據(jù)唐杰介紹,此次發(fā)布的“悟道”大模型1.0版本,已經(jīng)完成了百億和千億參數(shù)規(guī)模的預(yù)訓(xùn)練,在多個(gè)國(guó)際評(píng)測(cè)中取得世界第一,在部分任務(wù)上具有一定認(rèn)知能力。今年,還將陸續(xù)發(fā)布后續(xù)迭代版本,面向產(chǎn)業(yè)界開放使用。
“悟道”模型應(yīng)用生態(tài)建設(shè)分為三個(gè)主要階段,分別關(guān)注示范應(yīng)用、API生態(tài)及社區(qū)運(yùn)營(yíng)維護(hù)等。目前,智源研究院已啟動(dòng)第一階段的示范性應(yīng)用搭建,正與快手、搜狗、360、阿里、智譜華章、一覽群智、循環(huán)智能、新華社等機(jī)構(gòu)就模型的應(yīng)用進(jìn)行洽談,聯(lián)合構(gòu)建一批工業(yè)級(jí)示范性應(yīng)用。
下一步,智源研究院將加強(qiáng)用戶的開發(fā),做好用戶服務(wù),與AI龍頭企業(yè)共同研發(fā)更多工業(yè)級(jí)示范性應(yīng)用,并將加快推動(dòng)API生態(tài)構(gòu)建及社區(qū)運(yùn)營(yíng)迭代工作,通過(guò)舉辦學(xué)術(shù)交流、技術(shù)挑戰(zhàn)賽等活動(dòng)提高“悟道”模型的影響力,吸引更多AI企業(yè)、研究機(jī)構(gòu)、個(gè)人開發(fā)者等開展基于模型的應(yīng)用開發(fā)工作,推動(dòng)構(gòu)建國(guó)際領(lǐng)先的超大規(guī)模智能模型應(yīng)用生態(tài)。
圖片來(lái)源:智源研究院