如果說2022年底的人工智能的熱潮是OpenAI的ChatGPT帶來的,那么2023年底,谷歌帶著它的Gemini高調殺回人工智能圈。過去近十年,谷歌一直把AI-first作為公司戰(zhàn)略,2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。曾經,是谷歌掀起的一股AI浪潮改變了整個AI行業(yè)的發(fā)展,但現在,它亟需在大模型領域證明自己。
多模態(tài)
當地時間12月6日,谷歌正式發(fā)布了Gemini大模型。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱,這是谷歌迄今為止“功能最強大、最通用”的模型。
據介紹,Gemini有三種不同版本的套件:最大、最強大的Gemini Ultra,是谷歌目前創(chuàng)造的最強大的大語言模型(Large Language Model,LLM);適用于廣泛任務的 Gemini Pro,將大量為谷歌人工智能服務提供動力,并成為Bard的支柱;以及輕便版本Gemini Nano,可以在安卓設備上原生離線運行。
目前,谷歌通過谷歌云將Gemini授權給客戶。12月13日起,開發(fā)者和企業(yè)客戶都可以通過谷歌人工智能工作室或谷歌云頂點人工智能中的Gemini API訪問Gemini Pro。安卓開發(fā)者也可以使用Gemini Nano進行開發(fā)。Gemini還支持谷歌產品,如Bard聊天機器人和生成式搜索工具。
據The Verge報道,在基準測試中,Gemini最明顯的優(yōu)勢來自于它理解視頻和音頻并與之交互的能力。皮查伊在一篇博文中寫道:“Gemini一開始就是為多模態(tài)打造的,這意味著它可以生成并理解、操作和組合成不同類型的信息,包括文本、代碼、音頻、圖像和視頻。”谷歌DeepMind首席執(zhí)行官德米斯·哈薩比斯說:“我們一直對通用系統(tǒng)感興趣,尤其感興趣的是如何混合所有這些模式——從任何數量的輸入和感官中收集盡可能多的數據,然后給出同樣多樣的響應。”
目前Gemini最基本的輸入模式依然是文本輸入和輸出,但Gemini Ultra將可以輸入和生成更多的圖像和音頻。哈薩比斯說:“還有動作和觸覺,這些輸入和生成,更像是機器人需要的功能。”隨著時間的推移,Gemini將變得擁有更多知覺,并變得更加準確和接地氣。“模型會更好地理解周圍的世界。”
除此之外,Gemini已經確定會很快融入到谷歌的業(yè)務中。在接下來的幾個月中,Gemini將出現在更多谷歌產品和服務中,例如搜索、廣告、Chrome和Duet AI。不過Gemini目前只有英語版本,其他語言版本很快就會推出。
領先GPT-4?
根據谷歌公司此前發(fā)布的博文,Gemini Ultra是第一個在大規(guī)模多任務語言理解(MMLU)測試中超越人類專家的模型。MMLU測試包括57個學科,例如數學、物理、歷史、法律、醫(yī)學和倫理等,這個測試用于評估模型對世界知識和解決問題的能力。據稱,該模型能夠理解復雜主題中的微妙之處和推理邏輯。
桑達爾·皮查伊表示,Gemini的發(fā)布,是人工智能發(fā)展的一個重要里程碑,也是谷歌新時代的開始。但人們最關注的問題恐怕還是Gemini和今年3月推出的GPT-4相比,孰優(yōu)孰劣。
谷歌公司高管稱,Gemini Pro的表現優(yōu)于GPT-3.5,但回避了關于它與GPT-4相比的問題。不過,根據谷歌此前發(fā)布的一份白皮書,Gemini Ultra在一些基準測試中的表現優(yōu)于GPT-4。
哈薩比斯表示:“我們已經對這兩個系統(tǒng)進行了全面的分析和基準測試。谷歌運行了32項成熟的基準測試,對兩種模型進行了比較,其中既有多任務語言理解基準測試等整體測試,也有比較兩種機型生成Python代碼能力的測試。”哈薩比斯說:“我認為,在32項基準測試中,Gemini Ultra有30項大幅領先。”“有些差距很小,有些則比較大。”
天使投資人、知名互聯網專家郭濤表示,目前而言微軟在自然語言處理技術(NLP)成熟度和應用上領先于谷歌,但總體來看,谷歌在AI技術研發(fā)及儲備上領先于微軟,旗下多款AI產品都擁有全球領先的地位,如DeepMind、Waymo、Google Brain等。
在郭濤看來,微軟與谷歌的AI競爭是下一代信息分發(fā)獲取方式的競爭,基于認知智能等新技術可實現更高效的信息整合和知識推薦,讓信息獲取更加高效、內容更加精準。未來或顛覆傳統(tǒng)搜索引擎、資訊網站等,成為最重要的信息入口。
中泰資本董事王冬偉指出,微軟和谷歌在不同領域的AI技術研究和應用都有所側重。微軟在自然語言處理和語言模型方面表現突出,而谷歌則在計算機視覺和圖像識別方面具備領先地位。因此,微軟可能會在自然語言處理、文本生成、語音識別等領域對谷歌產生沖擊,而在計算機視覺、圖像識別、自動駕駛等領域可能仍需要進一步發(fā)展。
利潤轉化
Gemini發(fā)布后, 12月7日美股盤前谷歌漲近3%。桑達爾·皮查伊表示,現在已經有數百萬人正在使用谷歌產品中的生成式AI,做一年前還做不到的事情。與此同時,開發(fā)人員正在使用谷歌的模型和基礎架構構建新的生成式AI應用程序,全球的初創(chuàng)公司和企業(yè)也正在利用谷歌的AI工具不斷成長。
因此在Gemini的開發(fā)過程中,谷歌也加強了安全審查工作。哈薩比斯介紹,在谷歌的AI原則和產品安全政策基礎上,谷歌團隊正為Gemini的多模態(tài)能力添加新的保護措施。
比起大眾,投資者更關心的是AI是否能夠轉化為實際回報。此前在谷歌第三季財報電話會議上,投資者向高管們提出了許多關于如何將人工智能轉化為實際利潤的問題。
從科技巨頭們最新的財報來看,只有微軟達到了華爾街的預期。有分析指出,微軟的優(yōu)勢在于,現有的大部分業(yè)務收入都來自于向企業(yè)銷售軟件和云服務,而企業(yè)更傾向于盡早為技術付費,因為這些技術可以幫助企業(yè)實現從編碼、電子表格分析到PPT制作的自動化。
《華爾街日報》稱,大型科技公司正在努力應對將AI產品轉變?yōu)閷嶋H利潤的挑戰(zhàn),而運行高級AI模型的成本可能是這一過程中的重大障礙。當前的成本挑戰(zhàn)與AI算力有關,這使得AI服務的固定費用模式存在風險,因為增加客戶使用量可能會增加運營成本并導致公司出現潛在損失。微軟企業(yè)戰(zhàn)略主管Chris Young也認為,AI的投資回報將需要更多時間。
北京商報記者 方彬楠 趙天舒
本網站所有內容屬北京商報社有限公司,未經許可不得轉載。 商報總機:010-64101978 媒體合作:010-64101871
商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務所(010-82011988)
網上有害信息舉報 違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn
ICP備案編號:京ICP備08003726號-1 京公網安備11010502045556號 互聯網新聞信息服務許可證11120220001號