您的位置: 首頁(yè) > 科技頻道

關(guān)于大模型競(jìng)爭(zhēng),傅盛捅破的不只有數(shù)據(jù)壁壘

出處:北京商報(bào) 作者:魏蔚 網(wǎng)編:陶鳳 2024-12-02

圖片來(lái)源:聚云科技官網(wǎng)截圖

盡管OpenAI下一代旗艦?zāi)P偷纳暇€時(shí)間還是未知數(shù),但多方消息指向同一個(gè)可能性:性能沒(méi)那么大飛躍了。來(lái)自O(shè)penAI的員工和研究人員表示,高質(zhì)量文本和其他數(shù)據(jù)的供應(yīng)不足是GPT模型性能減速的原因之一。

國(guó)內(nèi)有關(guān)數(shù)據(jù)的討論也從未降溫,僅這半個(gè)月,月之暗面創(chuàng)始人楊植麟說(shuō),“當(dāng)Scale(規(guī)模)差不多時(shí),更多算力可能并不一定能直接解決問(wèn)題,核心是高質(zhì)量的數(shù)據(jù)沒(méi)那么多了”,螞蟻數(shù)科索性上線了全新的AI數(shù)據(jù)合成品與生產(chǎn)平臺(tái)。

獵豹移動(dòng)董事長(zhǎng)兼CEO、 獵戶(hù)星空董事長(zhǎng)傅盛更直白,他要捅破窗戶(hù)紙,“大模型行業(yè)競(jìng)爭(zhēng),真正的競(jìng)爭(zhēng)壁壘來(lái)自于數(shù)據(jù)”,獵豹移動(dòng)則聯(lián)合旗下的聚云科技于近日推出數(shù)據(jù)服務(wù)產(chǎn)品“AI數(shù)據(jù)寶 AirDS”。頂級(jí)模型成長(zhǎng)放緩是好是壞?怎么平衡人工和機(jī)器做數(shù)據(jù)標(biāo)注成本?獵豹移動(dòng)高管團(tuán)隊(duì)向北京商報(bào)記者開(kāi)誠(chéng)布公。

卡在數(shù)據(jù)上

開(kāi)發(fā)過(guò)程中,OpenAI的最新模型Orion(獵戶(hù)座)未能達(dá)到預(yù)期的性能,谷歌的Gemini模型以及Anthropic的Claude3.5 Opus也都遇到了瓶頸,在業(yè)內(nèi)人士看來(lái),三家似乎都面臨相似的問(wèn)題:越來(lái)越難以獲得高質(zhì)量數(shù)據(jù)。

有關(guān)Scaling law(規(guī)模定律)是否失效的問(wèn)題又一次被拋給大模型從業(yè)者。

用OpenAI一篇論文中的定義,所謂Scaling law,是指大模型的最終性能主要與計(jì)算量、模型參數(shù)量和訓(xùn)練數(shù)據(jù)量三者的大小相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無(wú)關(guān)。換言之,僅僅增加模型規(guī)模和訓(xùn)練數(shù)據(jù),就能顯著提升人工智能能力,而無(wú)需取得根本性的算法突破。

“沒(méi)人能下這個(gè)結(jié)論,”傅盛話(huà)鋒一轉(zhuǎn),“從客觀事實(shí)看,頂級(jí)模型的能力和成長(zhǎng),肯定是放緩的,Scaling law不一定放緩了,但受限于數(shù)據(jù)的容量,不是說(shuō)芯片和算法不重要,而是大家在這兩點(diǎn)上很難作出差異化。”

一種解決方案是合成數(shù)據(jù),Epoch AI Research研究團(tuán)隊(duì)預(yù)測(cè),“到2026年,現(xiàn)存的用于AI模型訓(xùn)練的高質(zhì)量語(yǔ)言數(shù)據(jù)將耗盡”。

“未來(lái)的AI應(yīng)用需要大量稀缺且難以獲取的長(zhǎng)尾數(shù)據(jù),如自動(dòng)駕駛中的極端天氣與極端路況數(shù)據(jù),具身智能訓(xùn)練所需要的復(fù)雜場(chǎng)景數(shù)據(jù)。在此背景下,數(shù)據(jù)合成將成為關(guān)鍵”,螞蟻數(shù)科AI科技技術(shù)負(fù)責(zé)人、螞蟻天璣實(shí)驗(yàn)室主任李哲持以上觀點(diǎn)。

“合成數(shù)據(jù)確實(shí)是一個(gè)很重要的補(bǔ)充,但僅僅使用合成數(shù)據(jù)肯定是不夠的”,獵戶(hù)星空首席科學(xué)家韓堃告訴北京商報(bào)記者。獵豹移動(dòng)將重點(diǎn)放在大模型數(shù)據(jù)服務(wù)上,AI數(shù)據(jù)寶AirDS提供數(shù)據(jù)收集、清洗、標(biāo)準(zhǔn)、提示詞工程及評(píng)估等服務(wù)。

只會(huì)“拉框”遠(yuǎn)遠(yuǎn)不夠

以數(shù)據(jù)標(biāo)注為例,“上一代數(shù)據(jù)標(biāo)注趨向于常見(jiàn)的檢測(cè)、識(shí)別和固定化、規(guī)則化的任務(wù),這些標(biāo)注相對(duì)來(lái)說(shuō)比較明確,比如依照視頻找物體,根據(jù)語(yǔ)音找文字。但在大模型時(shí)代,企業(yè)應(yīng)用是多種多樣的”,獵豹移動(dòng)高級(jí)副總裁孫明焱向北京商報(bào)記者舉例,“比如客戶(hù)希望用大模型查數(shù)據(jù)庫(kù),希望讓大模型畫(huà)組織架構(gòu)圖,這種需求找一個(gè)標(biāo)注人員來(lái)做是挺難的”。

用傅盛的話(huà)說(shuō),大模型讓數(shù)據(jù)標(biāo)注和服務(wù)走向一體化,“光雇人標(biāo)人臉的時(shí)代已經(jīng)適應(yīng)不了現(xiàn)在的需求了。沒(méi)有做過(guò)大模型、大模型應(yīng)用的企業(yè),要構(gòu)建這套體系需要時(shí)間”。

人工和機(jī)器間的平衡,也沒(méi)有特定的套路。

“數(shù)據(jù)服務(wù)肯定是需要人工的,但大模型時(shí)代會(huì)大量借鑒AI模型和工具來(lái)提高數(shù)據(jù)標(biāo)注的效率,”韓堃進(jìn)一步說(shuō),“如果所有的數(shù)據(jù)服務(wù)都通過(guò)人工服務(wù),標(biāo)注或清理的速度肯定跟不上,成本也非常大,但要產(chǎn)出高質(zhì)量的數(shù)據(jù),僅通過(guò)模型肯定是不夠的。我們?cè)谧约河?xùn)練模型的過(guò)程中發(fā)現(xiàn),數(shù)量和質(zhì)量的平衡點(diǎn)非常微妙,要通過(guò)大量實(shí)踐才能找到,一個(gè)既保證數(shù)量,質(zhì)量又非常高的點(diǎn)。而這個(gè)點(diǎn)跟企業(yè)的目標(biāo)相關(guān),做預(yù)訓(xùn)練、微調(diào)或者應(yīng)用,對(duì)于數(shù)量和質(zhì)量的要求是不太一樣的。”

2025年應(yīng)用會(huì)繁榮

除了獵豹移動(dòng),螞蟻數(shù)科也采用人機(jī)協(xié)同模式。北京商報(bào)記者了解到,在數(shù)據(jù)標(biāo)注方面,螞蟻數(shù)科AIGD平臺(tái)通過(guò)人機(jī)協(xié)同進(jìn)行標(biāo)注,人工智能算法能夠自動(dòng)識(shí)別和預(yù)處理大部分基礎(chǔ)信息,預(yù)標(biāo)注模型依賴(lài)人工標(biāo)注量降低了70%以上。

客戶(hù)需求決定市場(chǎng),市場(chǎng)永遠(yuǎn)是動(dòng)態(tài)的。站在客戶(hù)的角度,“大模型標(biāo)注更多是在應(yīng)用層發(fā)揮大模型的能力”,獵豹移動(dòng)副總裁童寧透露。

他分享了一個(gè)有關(guān)讀取PDF信息的案例,“因?yàn)楹贤姆N類(lèi)有很多種,最初客戶(hù)認(rèn)為大模型讀取PDF形式合同的正確率到80%就上不去了。后來(lái)我們做了POC(概念驗(yàn)證),通過(guò)一個(gè)智能體理解上下文,調(diào)整成一些更優(yōu)質(zhì)的提示詞。這個(gè)流程中,標(biāo)注團(tuán)隊(duì)的能力體現(xiàn)在根據(jù)場(chǎng)景設(shè)計(jì)一套智能體系中間的工作流,并對(duì)應(yīng)成能夠輸出的高精度的提示詞”。

這些都是大模型應(yīng)用落地需要解決的問(wèn)題,即大模型商業(yè)化的“最后一公里”。

“獵豹移動(dòng)不靠大模型掙錢(qián),也不靠模型接口調(diào)取量掙錢(qián),而是通過(guò)應(yīng)用去賺錢(qián),”傅盛認(rèn)為,“現(xiàn)在可能沒(méi)有特別頂級(jí)的應(yīng)用出來(lái),2025年大模型應(yīng)用的繁榮是可見(jiàn)的。”

他以O(shè)penAI為例,“最近薩姆·奧爾特曼(OpenAI CEO)接受采訪,人家問(wèn)他OpenAI最缺什么,他說(shuō)我們最缺產(chǎn)品。OpenAI也是把產(chǎn)品能力、應(yīng)用能力加強(qiáng)了,最近半年內(nèi)推出的功能都是應(yīng)用在做的。所以我認(rèn)為,2025年應(yīng)該是大模型大繁榮的一年”。

北京商報(bào)記者 魏蔚

右側(cè)廣告
新聞排行

本網(wǎng)站所有內(nèi)容屬北京商報(bào)社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報(bào)總機(jī):010-64101978 媒體合作:010-64101871

商報(bào)地址:北京市朝陽(yáng)區(qū)和平里西街21號(hào) 郵編:100013 法律顧問(wèn):北京市中同律師事務(wù)所(010-82011988)

網(wǎng)上有害信息舉報(bào)  違法和不良信息舉報(bào)電話(huà):010-84276691 舉報(bào)郵箱:bjsb@bbtnews.com.cn

ICP備案編號(hào):京ICP備08003726號(hào)-1  京公網(wǎng)安備11010502045556號(hào)  互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號(hào)