日本三级片东京熟视频网站,欧美精品一区二区精品久久,国产精品无码一区二区三区

您的位置：首頁 > 科技頻道

不走Sora路線,“另類”的智源多模態(tài)模型Emu3

出處：北京商報作者：孔文燮網(wǎng)編：陶鳳 2024-10-21

大中小
收藏
分享
打印
手機網(wǎng)頁版

X 分享到微信朋友圈

打開微信，點擊底部的“發(fā)現(xiàn)”，

使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

“小朋友出生后接收的是視覺、圖像、語言，綜合的信號，現(xiàn)在市面上的多模態(tài)模型是先將語言學(xué)到非常高的水平，再把視覺信息做了橋接。更像是打補丁的方法”，將多模態(tài)模型比作小朋友，智源研究院院長王仲遠(yuǎn)在10月21日向北京商報記者等詳細(xì)講解了多模態(tài)大模型Emu3，他認(rèn)為，“Emu3的訓(xùn)練過程更像人類”。6月18日，智源研究院在智源大會上首次預(yù)告Emu3，10月21日這款模型正式發(fā)布，Emu3具備原生多模態(tài)能力，實現(xiàn)了圖像、視頻、文字的統(tǒng)一輸入和輸出。“走通這條路線意味著，用一個大模型解決所有問題”，王仲遠(yuǎn)總結(jié)。

智源研究院

10月21日，智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。根據(jù)智源研究院提供的案例，在僅給出一張消防栓照片的情況下，向Emu3發(fā)問：“哪種類型的車輛使用這個物品？”Emu3的回答是：消防車。“Emu3需要理解這句提問，理解這個圖片里的物品是什么，以及圖片里并沒有出現(xiàn)的該物品對應(yīng)的交通工具，Emu3需要自行聯(lián)想”，王仲遠(yuǎn)介紹了這一問一答背后的邏輯。

對比效果，在圖像生成、視覺語言理解、視頻生成任務(wù)中，Emu3的表現(xiàn)超過了SDXL、LLaVA-1.6、OpenSora等開源模型。

Emu3只基于下一個token預(yù)測，無需擴散模型或組合式方法，把圖像、文本和視頻編碼為一個離散空間，在多模態(tài)混合序列上從頭開始聯(lián)合訓(xùn)練一個Transformer?？梢院唵卫斫鉃?，智源研究院證明了可以用另一種思路解決問題，這個思路是用一個大一統(tǒng)的模型實現(xiàn)原來需要多個復(fù)雜的模型可以做到的能力。

來自研究人員的評價是：“Emu3意味著出現(xiàn)了一個新的機會，可以通過統(tǒng)一的架構(gòu)探索多模態(tài)，無需將復(fù)雜的擴散模型與大語言模型相結(jié)合。”

“Emu3的訓(xùn)練過程更像人類的學(xué)習(xí)過程，人類不是先學(xué)習(xí)文字的，小朋友出生后不斷接收視覺、語言信號，Emu3也是一樣，一開始就是通過視覺、圖像、文字類數(shù)據(jù)訓(xùn)練”，王仲遠(yuǎn)告訴北京商報記者，“現(xiàn)在的多模態(tài)模型某些效果是非常不錯的，但它們是先把語言學(xué)到非常高的水平之后，把視覺的信息做橋接，再發(fā)揮語言處理能力。這更像是一種打補丁的方式，不是人類大腦延伸的方式”。

從2023年初開始判斷這條技術(shù)路線，到智源研究院正式發(fā)布Emu3，是0到1的過程。“要解決的問題包括把不同模態(tài)的數(shù)據(jù)統(tǒng)一成token，用什么樣的數(shù)據(jù)做統(tǒng)一訓(xùn)練等”，多模態(tài)大模型研究中心負(fù)責(zé)人王鑫龍告訴北京商報記者。

王仲遠(yuǎn)認(rèn)為這條技術(shù)路線的意義在于，“把整個世界都裝在了一個模型里面，這個模型能夠解決所有的問題”，他還向北京商報記者強調(diào)，“Emu3可以極大地復(fù)用現(xiàn)有的AI基礎(chǔ)設(shè)施”，在成本和技術(shù)演進(jìn)方面，王仲遠(yuǎn)有信心。

北京商報記者魏蔚

深藍(lán)智庫企業(yè)社會責(zé)任峰會智慧康養(yǎng)論壇十大商業(yè)品牌商業(yè)高峰論壇金融業(yè)十大品牌酒業(yè)價值榜餐飲十大品牌

@北京商報

新聞排行