您的位置: 首頁(yè) > 科技頻道

智源公布FlagEval“百模”評(píng)測(cè)結(jié)果

出處:北京商報(bào) 作者:魏蔚 網(wǎng)編:陶鳳 2024-12-19

北京商報(bào)訊(記者 魏蔚)12月19日,智源研究院發(fā)布并解讀國(guó)內(nèi)外100余個(gè)開(kāi)源和商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻、語(yǔ)音語(yǔ)言大模型綜合及專(zhuān)項(xiàng)評(píng)測(cè)結(jié)果。本次評(píng)測(cè)依托智源研究院自2023年6月上線的大模型評(píng)測(cè)平臺(tái)FlagEval,經(jīng)過(guò)數(shù)次迭代,目前已覆蓋全球800多個(gè)開(kāi)閉源模型,包含20多種任務(wù),90多個(gè)評(píng)測(cè)數(shù)據(jù)集,超200萬(wàn)條評(píng)測(cè)題目。

在評(píng)測(cè)方法與工具上,智源研究院聯(lián)合全國(guó)10余家高校和機(jī)構(gòu)合作共建,探索基于AI的輔助評(píng)測(cè)模型 FlagJudge和靈活全面的多模態(tài)評(píng)測(cè)框架FlagEvalMM,并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測(cè)集,包括與北京大學(xué)共建的HalluDial幻覺(jué)評(píng)測(cè)集、與北師大共建的CMMU多模態(tài)評(píng)測(cè)集、多語(yǔ)言跨模態(tài)評(píng)測(cè)集MG18、復(fù)雜代碼評(píng)測(cè)集TACO以及長(zhǎng)視頻理解評(píng)測(cè)MLVU等,其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話(huà)場(chǎng)景下的幻覺(jué)評(píng)測(cè)集,有18000多個(gè)輪次對(duì)話(huà),和14萬(wàn)多個(gè)回答。

以語(yǔ)言模型為例,評(píng)測(cè)重點(diǎn)考察模型中文能力,結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語(yǔ)言模型客觀評(píng)測(cè)中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

右側(cè)廣告
新聞排行

本網(wǎng)站所有內(nèi)容屬北京商報(bào)社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報(bào)總機(jī):010-64101978 媒體合作:010-64101871

商報(bào)地址:北京市朝陽(yáng)區(qū)和平里西街21號(hào) 郵編:100013 法律顧問(wèn):北京市中同律師事務(wù)所(010-82011988)

網(wǎng)上有害信息舉報(bào)  違法和不良信息舉報(bào)電話(huà):010-84276691 舉報(bào)郵箱:bjsb@bbtnews.com.cn

ICP備案編號(hào):京ICP備08003726號(hào)-1  京公網(wǎng)安備11010502045556號(hào)  互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號(hào)