“小朋友出生后接收的是視覺、圖像、語言,綜合的信號,現(xiàn)在市面上的多模態(tài)模型是先將語言學(xué)到非常高的水平,再把視覺信息做了橋接。更像是打補丁的方法”,將多模態(tài)模型比作小朋友,智源研究院院長王仲遠(yuǎn)在10月21日向北京商報記者等詳細(xì)講解了多模態(tài)大模型Emu3,他認(rèn)為,“Emu3的訓(xùn)練過程更像人類”。6月18日,智源研究院在智源大會上首次預(yù)告Emu3,10月21日這款模型正式發(fā)布,Emu3具備原生多模態(tài)能力,實現(xiàn)了圖像、視頻、文字的統(tǒng)一輸入和輸出。“走通這條路線意味著,用一個大模型解決所有問題”,王仲遠(yuǎn)總結(jié)。
10月21日,智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。根據(jù)智源研究院提供的案例,在僅給出一張消防栓照片的情況下,向Emu3發(fā)問:“哪種類型的車輛使用這個物品?”Emu3的回答是:消防車。“Emu3需要理解這句提問,理解這個圖片里的物品是什么,以及圖片里并沒有出現(xiàn)的該物品對應(yīng)的交通工具,Emu3需要自行聯(lián)想”,王仲遠(yuǎn)介紹了這一問一答背后的邏輯。
對比效果,在圖像生成、視覺語言理解、視頻生成任務(wù)中,Emu3的表現(xiàn)超過了SDXL、LLaVA-1.6、OpenSora等開源模型。
Emu3只基于下一個token預(yù)測,無需擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer??梢院唵卫斫鉃?,智源研究院證明了可以用另一種思路解決問題,這個思路是用一個大一統(tǒng)的模型實現(xiàn)原來需要多個復(fù)雜的模型可以做到的能力。
來自研究人員的評價是:“Emu3意味著出現(xiàn)了一個新的機會,可以通過統(tǒng)一的架構(gòu)探索多模態(tài),無需將復(fù)雜的擴散模型與大語言模型相結(jié)合。”
“Emu3的訓(xùn)練過程更像人類的學(xué)習(xí)過程,人類不是先學(xué)習(xí)文字的,小朋友出生后不斷接收視覺、語言信號,Emu3也是一樣,一開始就是通過視覺、圖像、文字類數(shù)據(jù)訓(xùn)練”,王仲遠(yuǎn)告訴北京商報記者,“現(xiàn)在的多模態(tài)模型某些效果是非常不錯的,但它們是先把語言學(xué)到非常高的水平之后,把視覺的信息做橋接,再發(fā)揮語言處理能力。這更像是一種打補丁的方式,不是人類大腦延伸的方式”。
從2023年初開始判斷這條技術(shù)路線,到智源研究院正式發(fā)布Emu3,是0到1的過程。“要解決的問題包括把不同模態(tài)的數(shù)據(jù)統(tǒng)一成token,用什么樣的數(shù)據(jù)做統(tǒng)一訓(xùn)練等”,多模態(tài)大模型研究中心負(fù)責(zé)人王鑫龍告訴北京商報記者。
王仲遠(yuǎn)認(rèn)為這條技術(shù)路線的意義在于,“把整個世界都裝在了一個模型里面,這個模型能夠解決所有的問題”,他還向北京商報記者強調(diào),“Emu3可以極大地復(fù)用現(xiàn)有的AI基礎(chǔ)設(shè)施”,在成本和技術(shù)演進(jìn)方面,王仲遠(yuǎn)有信心。
北京商報記者 魏蔚
本網(wǎng)站所有內(nèi)容屬北京商報社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報總機:010-64101978 媒體合作:010-64101871
商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務(wù)所(010-82011988)
網(wǎng)上有害信息舉報 違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn
ICP備案編號:京ICP備08003726號-1 京公網(wǎng)安備11010502045556號 互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號