每日經(jīng)濟(jì)新聞 2025-03-26 19:17:04
當(dāng)?shù)貢r間3月25日,谷歌正式推出全新AI模型系列——Gemini 2.5。該系列的首發(fā)產(chǎn)品Gemini 2.5 Pro一經(jīng)發(fā)布,便在各大基準(zhǔn)測試中全面“屠榜”,在編程、數(shù)學(xué)和科學(xué)等方面表現(xiàn)出色。每經(jīng)記者實(shí)測發(fā)現(xiàn),Gemini 2.5 Pro的確實(shí)力強(qiáng)大,可輕松模擬火星登陸,快速制作小游戲,但在設(shè)計審美方面還有提升空間。
每經(jīng)記者 岳楚鵬 每經(jīng)編輯 蘭素英
圖片來源:谷歌博客
當(dāng)?shù)貢r間3月25日,谷歌正式揭開其下一代AI模型系列——Gemini 2.5的神秘面紗,宣稱這是其迄今為止“最智能的AI模型”。
首個發(fā)布的版本被命名為Gemini 2.5 Pro Experimental(以下簡稱“Gemini 2.5 Pro”)。谷歌表示,Gemini 2.5 Pro支持100萬個token的上下文窗口,這意味著AI模型能一次性處理相當(dāng)于兩本《紅樓夢》字?jǐn)?shù)的文本量。
該模型一經(jīng)發(fā)布,便在各大基準(zhǔn)測試上全面“屠榜”,在所有測試中都穩(wěn)居第一名的位置,包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測試。
谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫道:“現(xiàn)在,通過Gemini 2.5,我們結(jié)合了顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)后的后續(xù)訓(xùn)練,實(shí)現(xiàn)了全新的性能水平。未來,我們將把這種思維能力直接構(gòu)建到我們所有的模型中,使其能夠處理更復(fù)雜的問題,并支持更強(qiáng)大、更具情境感知能力的智能體。”
《每日經(jīng)濟(jì)新聞》記者(以下簡稱“每經(jīng)記者”)也在第一時間對Gemini 2.5 Pro進(jìn)行了測試,測試包括數(shù)學(xué)、火星登陸模擬測試、網(wǎng)頁開發(fā)和小游戲制作。
測試結(jié)果顯示,該模型在科學(xué)類問題和編程方面實(shí)力強(qiáng)大,用戶只要會打字,就能進(jìn)行編程。而且,生成速度極快,質(zhì)量良好。與每經(jīng)記者之前測試的多款大模型相比,Gemini 2.5 Pro在測試過程中幾乎沒有出現(xiàn)bug。不過,在網(wǎng)頁設(shè)計審美和玩家體驗(yàn)等方面,該模型還有提升的空間。
當(dāng)?shù)貢r間3月25日,谷歌宣布推出全新AI模型系列——Gemini 2.5。谷歌首席科學(xué)家Jeff Dean表示,Gemini 2.5是該公司最智能的模型,具有令人印象深刻的高級推理和編碼能力。
Gemini 2.5系列屬于“思考模型”,這意味著該模型在生成最終回應(yīng)之前,能夠進(jìn)行內(nèi)部的“思考”或推理過程。谷歌表示,這種能力旨在顯著提升模型的性能表現(xiàn)和答案的準(zhǔn)確性,是谷歌在強(qiáng)化學(xué)習(xí)、思維鏈提示技術(shù)領(lǐng)域長期深耕,以及對早期 “思考” 模型(如 Gemini 2.0 Flash Thinking )持續(xù)探索的重要成果。
Gemini 2.5 Pro是這一系列模型的首發(fā)產(chǎn)品。谷歌表示,Gemini 2.5 Pro支持100萬個token的上下文窗口,這意味著它一次性能處理相當(dāng)于兩本《紅樓夢》字?jǐn)?shù)的文本量。并且,谷歌承諾,Gemini 2.5 Pro很快將支持兩倍的上下文窗口(即200萬個token)。
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini應(yīng)用中推出,向Gemini Advanced用戶開放,并將很快在Vertex AI上推出。
一經(jīng)發(fā)布,Gemini 2.5 Pro便以出色的性能吸引了外界的廣泛關(guān)注。谷歌在博客中強(qiáng)調(diào),Gemini 2.5 Pro在一系列行業(yè)基準(zhǔn)測試中達(dá)到了“最先進(jìn)水平”(state-of-the-art),包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測試。
在“人類的最后考試”測試中,它獲得了18.8%的最高分?jǐn)?shù),這是目前為止所有未使用(外接工具)的大模型中最好的成績。?“人類最后的考試”是一個由全球近千名專家共同設(shè)計的多模態(tài)基準(zhǔn)測試,旨在評估大型語言模型的能力極限。?該測試包含3000道涵蓋數(shù)學(xué)、人文學(xué)科和自然科學(xué)等多個領(lǐng)域的前沿問題。
“人類的最后考試”測試 圖片來源:谷歌官網(wǎng)
在專注于人類理解的大模型競技場測試中,Gemini 2.5 Pro也以創(chuàng)紀(jì)錄的優(yōu)勢拔得頭籌,創(chuàng)下了歷史最大的分?jǐn)?shù)跨越,比Grok-3和GPT-4.5高出40多分。
圖片來源:大模型競技場
具體來看,在代號為“nebula”的測試中,Gemini 2.5 Pro橫掃所有類別,奪得第一,獨(dú)攬數(shù)學(xué)、創(chuàng)意寫作、指令遵循、長查詢和多輪對話這五大領(lǐng)域的冠軍;
圖片來源:X平臺截圖
在人類偏好測試中,Gemini 2.5 Pro同樣是在所有類別中問鼎榜首,只在困難提示和編碼領(lǐng)域與Grok-3/GPT-4.5拿到并列冠軍。
人類偏好測試 圖片來源:大模型競技場
在網(wǎng)頁開發(fā)領(lǐng)域,Gemini 2.5 Pro也是脫穎而出,在WebDev Arena上排名第二,它較上一代Gemini有了巨大的飛躍,超越了Claude 3.5 Sonnet,是第一款能與Claude抗衡的模型,但仍低于Claude 3.7 Sonnet。
WebDev Arena測試 圖片來源:大模型競技場
在Vision Arena(視覺競技場)測試中,作為多模態(tài)模型的Gemini 2.5 Pro也處于領(lǐng)先的位置。
Vision Arena測試 圖片來源:大模型競技場
每經(jīng)記者第一時間對Gemini 2.5 Pro進(jìn)行了測試,測試包括數(shù)學(xué)、火星登陸模擬測試、網(wǎng)頁開發(fā)和小游戲制作。
數(shù)學(xué)問題
每經(jīng)記者拋出的是一個博士資格考試的群論數(shù)學(xué)問題:有多少個147階的非同構(gòu)群?
Gemini 2.5 Pro在數(shù)量和具體的非同構(gòu)群上都給出了完美的解答。值得一提的是,此前記者也用這一問題對其他大模型進(jìn)行了測試,Grok3、o3-mini和DeepSeek-R1都或多或少出現(xiàn)了錯誤,不是數(shù)量沒找對,就是具體的非同構(gòu)群出錯。
火星登陸模擬
接下來,每經(jīng)記者測試的是Gemini 2.5 Pro在數(shù)學(xué)和物理方面的綜合能力。測試選擇的是馬斯克的經(jīng)典問題:繪制一個登陸火星并返回的火箭軌道圖。
Gemini 2.5 Pro給出了一個完成度超高的動態(tài)圖像,包含任務(wù)天數(shù)、具體軌道示意圖等要素。并且,它還稱,這只是一個簡單版本,如果允許它接入天體數(shù)據(jù)庫的話,它還可以制作一個更準(zhǔn)確的版本出來。
網(wǎng)頁開發(fā)
在前端設(shè)計方面,每經(jīng)記者要求它設(shè)計一個有互動性的世界風(fēng)光介紹網(wǎng)站。
Gemini 2.5 Pro輸出了一個完整的網(wǎng)站,并且?guī)в芯包c(diǎn)介紹和互動地圖探索相關(guān)功能。但是,在具體細(xì)節(jié)上,它犯了很多小錯誤,例如,景點(diǎn)介紹的圖片不僅單一,而且還都是不相關(guān)的內(nèi)容。此外,整體網(wǎng)頁設(shè)計的色調(diào)也不甚美觀。
小游戲制作
最后,每經(jīng)記者讓Gemini 2.5 Pro制作一個類似于flappy bird的小游戲,標(biāo)準(zhǔn)是卡通畫風(fēng),背景要隨游玩時間變換,玩家主角要是一個小飛象,要有有趣的玩法創(chuàng)新。
在短暫的思考后,Gemini 2.5 Pro輸出了完成這個游戲需要的500多行代碼。這一游戲非常完美地契合了每經(jīng)記者給出的描述,并且對玩法創(chuàng)新的模糊描述也給出了良好的回應(yīng),自行思考出了無敵道具玩法,吃下金花生就可以在短時間內(nèi)無敵。
更重要的是,這一游戲并沒有出現(xiàn)任何bug,只需要復(fù)制粘貼就可以流暢運(yùn)行。
在此前的大模型測試中,第一次的輸出結(jié)果或多或少會出現(xiàn)一些bug,影響游戲體驗(yàn)。不過,還是要指出的一點(diǎn)是,Gemini 2.5 Pro只考慮了背景變化的要求,卻沒注意到其生成的游戲背景圖案中,云朵變化速度過快,太費(fèi)眼睛。
綜上,每經(jīng)記者認(rèn)為,Gemini 2.5 Pro在科學(xué)類問題和編程等硬實(shí)力上實(shí)力滿滿,但在審美和玩家體驗(yàn)等軟實(shí)力上還有一點(diǎn)欠缺。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP