您的位置: 首頁 > 國際頻道

Gemini對決GPT-4 谷歌大模型登場

出處:北京商報 作者:方彬楠,趙天舒 網(wǎng)編:要聞新聞中心 2023-12-07

北京商報記者攝

如果說2022年底的人工智能的熱潮是OpenAI的ChatGPT帶來的,那么2023年底,谷歌帶著它的Gemini高調(diào)殺回人工智能圈。過去近十年,谷歌一直把AI-first作為公司戰(zhàn)略,2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。曾經(jīng),是谷歌掀起的一股AI浪潮改變了整個AI行業(yè)的發(fā)展,但現(xiàn)在,它亟需在大模型領(lǐng)域證明自己。

多模態(tài)

當(dāng)?shù)貢r間12月6日,谷歌正式發(fā)布了Gemini大模型。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱,這是谷歌迄今為止“功能最強大、最通用”的模型。

據(jù)介紹,Gemini有三種不同版本的套件:最大、最強大的Gemini Ultra,是谷歌目前創(chuàng)造的最強大的大語言模型(Large Language Model,LLM);適用于廣泛任務(wù)的 Gemini Pro,將大量為谷歌人工智能服務(wù)提供動力,并成為Bard的支柱;以及輕便版本Gemini Nano,可以在安卓設(shè)備上原生離線運行。

目前,谷歌通過谷歌云將Gemini授權(quán)給客戶。12月13日起,開發(fā)者和企業(yè)客戶都可以通過谷歌人工智能工作室或谷歌云頂點人工智能中的Gemini API訪問Gemini Pro。安卓開發(fā)者也可以使用Gemini Nano進行開發(fā)。Gemini還支持谷歌產(chǎn)品,如Bard聊天機器人和生成式搜索工具。

據(jù)The Verge報道,在基準測試中,Gemini最明顯的優(yōu)勢來自于它理解視頻和音頻并與之交互的能力。皮查伊在一篇博文中寫道:“Gemini一開始就是為多模態(tài)打造的,這意味著它可以生成并理解、操作和組合成不同類型的信息,包括文本、代碼、音頻、圖像和視頻。”谷歌DeepMind首席執(zhí)行官德米斯·哈薩比斯說:“我們一直對通用系統(tǒng)感興趣,尤其感興趣的是如何混合所有這些模式——從任何數(shù)量的輸入和感官中收集盡可能多的數(shù)據(jù),然后給出同樣多樣的響應(yīng)。”

目前Gemini最基本的輸入模式依然是文本輸入和輸出,但Gemini Ultra將可以輸入和生成更多的圖像和音頻。哈薩比斯說:“還有動作和觸覺,這些輸入和生成,更像是機器人需要的功能。”隨著時間的推移,Gemini將變得擁有更多知覺,并變得更加準確和接地氣。“模型會更好地理解周圍的世界。”

除此之外,Gemini已經(jīng)確定會很快融入到谷歌的業(yè)務(wù)中。在接下來的幾個月中,Gemini將出現(xiàn)在更多谷歌產(chǎn)品和服務(wù)中,例如搜索、廣告、Chrome和Duet AI。不過Gemini目前只有英語版本,其他語言版本很快就會推出。

領(lǐng)先GPT-4?

根據(jù)谷歌公司此前發(fā)布的博文,Gemini Ultra是第一個在大規(guī)模多任務(wù)語言理解(MMLU)測試中超越人類專家的模型。MMLU測試包括57個學(xué)科,例如數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等,這個測試用于評估模型對世界知識和解決問題的能力。據(jù)稱,該模型能夠理解復(fù)雜主題中的微妙之處和推理邏輯。

桑達爾·皮查伊表示,Gemini的發(fā)布,是人工智能發(fā)展的一個重要里程碑,也是谷歌新時代的開始。但人們最關(guān)注的問題恐怕還是Gemini和今年3月推出的GPT-4相比,孰優(yōu)孰劣。

谷歌公司高管稱,Gemini Pro的表現(xiàn)優(yōu)于GPT-3.5,但回避了關(guān)于它與GPT-4相比的問題。不過,根據(jù)谷歌此前發(fā)布的一份白皮書,Gemini Ultra在一些基準測試中的表現(xiàn)優(yōu)于GPT-4。

哈薩比斯表示:“我們已經(jīng)對這兩個系統(tǒng)進行了全面的分析和基準測試。谷歌運行了32項成熟的基準測試,對兩種模型進行了比較,其中既有多任務(wù)語言理解基準測試等整體測試,也有比較兩種機型生成Python代碼能力的測試。”哈薩比斯說:“我認為,在32項基準測試中,Gemini Ultra有30項大幅領(lǐng)先。”“有些差距很小,有些則比較大。”

天使投資人、知名互聯(lián)網(wǎng)專家郭濤表示,目前而言微軟在自然語言處理技術(shù)(NLP)成熟度和應(yīng)用上領(lǐng)先于谷歌,但總體來看,谷歌在AI技術(shù)研發(fā)及儲備上領(lǐng)先于微軟,旗下多款A(yù)I產(chǎn)品都擁有全球領(lǐng)先的地位,如DeepMind、Waymo、Google Brain等。

在郭濤看來,微軟與谷歌的AI競爭是下一代信息分發(fā)獲取方式的競爭,基于認知智能等新技術(shù)可實現(xiàn)更高效的信息整合和知識推薦,讓信息獲取更加高效、內(nèi)容更加精準。未來或顛覆傳統(tǒng)搜索引擎、資訊網(wǎng)站等,成為最重要的信息入口。

中泰資本董事王冬偉指出,微軟和谷歌在不同領(lǐng)域的AI技術(shù)研究和應(yīng)用都有所側(cè)重。微軟在自然語言處理和語言模型方面表現(xiàn)突出,而谷歌則在計算機視覺和圖像識別方面具備領(lǐng)先地位。因此,微軟可能會在自然語言處理、文本生成、語音識別等領(lǐng)域?qū)雀璁a(chǎn)生沖擊,而在計算機視覺、圖像識別、自動駕駛等領(lǐng)域可能仍需要進一步發(fā)展。

利潤轉(zhuǎn)化

Gemini發(fā)布后, 12月7日美股盤前谷歌漲近3%。桑達爾·皮查伊表示,現(xiàn)在已經(jīng)有數(shù)百萬人正在使用谷歌產(chǎn)品中的生成式AI,做一年前還做不到的事情。與此同時,開發(fā)人員正在使用谷歌的模型和基礎(chǔ)架構(gòu)構(gòu)建新的生成式AI應(yīng)用程序,全球的初創(chuàng)公司和企業(yè)也正在利用谷歌的AI工具不斷成長。

因此在Gemini的開發(fā)過程中,谷歌也加強了安全審查工作。哈薩比斯介紹,在谷歌的AI原則和產(chǎn)品安全政策基礎(chǔ)上,谷歌團隊正為Gemini的多模態(tài)能力添加新的保護措施。

比起大眾,投資者更關(guān)心的是AI是否能夠轉(zhuǎn)化為實際回報。此前在谷歌第三季財報電話會議上,投資者向高管們提出了許多關(guān)于如何將人工智能轉(zhuǎn)化為實際利潤的問題。

從科技巨頭們最新的財報來看,只有微軟達到了華爾街的預(yù)期。有分析指出,微軟的優(yōu)勢在于,現(xiàn)有的大部分業(yè)務(wù)收入都來自于向企業(yè)銷售軟件和云服務(wù),而企業(yè)更傾向于盡早為技術(shù)付費,因為這些技術(shù)可以幫助企業(yè)實現(xiàn)從編碼、電子表格分析到PPT制作的自動化。

《華爾街日報》稱,大型科技公司正在努力應(yīng)對將AI產(chǎn)品轉(zhuǎn)變?yōu)閷嶋H利潤的挑戰(zhàn),而運行高級AI模型的成本可能是這一過程中的重大障礙。當(dāng)前的成本挑戰(zhàn)與AI算力有關(guān),這使得AI服務(wù)的固定費用模式存在風(fēng)險,因為增加客戶使用量可能會增加運營成本并導(dǎo)致公司出現(xiàn)潛在損失。微軟企業(yè)戰(zhàn)略主管Chris Young也認為,AI的投資回報將需要更多時間。

北京商報記者 方彬楠 趙天舒

右側(cè)廣告

本網(wǎng)站所有內(nèi)容屬北京商報社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報總機:010-64101978 媒體合作:010-64101871

商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務(wù)所(010-82011988)

網(wǎng)上有害信息舉報  違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn

ICP備案編號:京ICP備08003726號-1  京公網(wǎng)安備11010502045556號  互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號