亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

<span id="1u1se"></span>

<button id="1u1se"></button><nav id="1u1se"><dd id="1u1se"></dd></nav>

<fieldset id="1u1se"><dd id="1u1se"></dd></fieldset>

<noframes id="1u1se"><code id="1u1se"></code></noframes>

<table id="1u1se"></table>

<samp id="1u1se"></samp>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

谷歌Gemini 2.5 Pro上線即“屠榜”！每經(jīng)記者實(shí)測：可輕松模擬火星登陸，快速制作小游戲，但審美能力有待提升

每日經(jīng)濟(jì)新聞 2025-03-26 19:17:04

當(dāng)?shù)貢r間3月25日，谷歌正式推出全新AI模型系列——Gemini 2.5。該系列的首發(fā)產(chǎn)品Gemini 2.5 Pro一經(jīng)發(fā)布，便在各大基準(zhǔn)測試中全面“屠榜”，在編程、數(shù)學(xué)和科學(xué)等方面表現(xiàn)出色。每經(jīng)記者實(shí)測發(fā)現(xiàn)，Gemini 2.5 Pro的確實(shí)力強(qiáng)大，可輕松模擬火星登陸，快速制作小游戲，但在設(shè)計審美方面還有提升空間。

每經(jīng)記者岳楚鵬每經(jīng)編輯蘭素英

圖片來源：谷歌博客

當(dāng)?shù)貢r間3月25日，谷歌正式揭開其下一代AI模型系列——Gemini 2.5的神秘面紗，宣稱這是其迄今為止“最智能的AI模型”。

首個發(fā)布的版本被命名為Gemini 2.5 Pro Experimental（以下簡稱“Gemini 2.5 Pro”）。谷歌表示，Gemini 2.5 Pro支持100萬個token的上下文窗口，這意味著AI模型能一次性處理相當(dāng)于兩本《紅樓夢》字?jǐn)?shù)的文本量。

該模型一經(jīng)發(fā)布，便在各大基準(zhǔn)測試上全面“屠榜”，在所有測試中都穩(wěn)居第一名的位置，包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測試。

谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫道：“現(xiàn)在，通過Gemini 2.5，我們結(jié)合了顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)后的后續(xù)訓(xùn)練，實(shí)現(xiàn)了全新的性能水平。未來，我們將把這種思維能力直接構(gòu)建到我們所有的模型中，使其能夠處理更復(fù)雜的問題，并支持更強(qiáng)大、更具情境感知能力的智能體。”

《每日經(jīng)濟(jì)新聞》記者（以下簡稱“每經(jīng)記者”）也在第一時間對Gemini 2.5 Pro進(jìn)行了測試，測試包括數(shù)學(xué)、火星登陸模擬測試、網(wǎng)頁開發(fā)和小游戲制作。

測試結(jié)果顯示，該模型在科學(xué)類問題和編程方面實(shí)力強(qiáng)大，用戶只要會打字，就能進(jìn)行編程。而且，生成速度極快，質(zhì)量良好。與每經(jīng)記者之前測試的多款大模型相比，Gemini 2.5 Pro在測試過程中幾乎沒有出現(xiàn)bug。不過，在網(wǎng)頁設(shè)計審美和玩家體驗(yàn)等方面，該模型還有提升的空間。

Gemini 2.5 Pro上線即“屠榜”

當(dāng)?shù)貢r間3月25日，谷歌宣布推出全新AI模型系列——Gemini 2.5。谷歌首席科學(xué)家Jeff Dean表示，Gemini 2.5是該公司最智能的模型，具有令人印象深刻的高級推理和編碼能力。

Gemini 2.5系列屬于“思考模型”，這意味著該模型在生成最終回應(yīng)之前，能夠進(jìn)行內(nèi)部的“思考”或推理過程。谷歌表示，這種能力旨在顯著提升模型的性能表現(xiàn)和答案的準(zhǔn)確性，是谷歌在強(qiáng)化學(xué)習(xí)、思維鏈提示技術(shù)領(lǐng)域長期深耕，以及對早期 “思考” 模型（如 Gemini 2.0 Flash Thinking ）持續(xù)探索的重要成果。

Gemini 2.5 Pro是這一系列模型的首發(fā)產(chǎn)品。谷歌表示，Gemini 2.5 Pro支持100萬個token的上下文窗口，這意味著它一次性能處理相當(dāng)于兩本《紅樓夢》字?jǐn)?shù)的文本量。并且，谷歌承諾，Gemini 2.5 Pro很快將支持兩倍的上下文窗口（即200萬個token）。

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini應(yīng)用中推出，向Gemini Advanced用戶開放，并將很快在Vertex AI上推出。

一經(jīng)發(fā)布，Gemini 2.5 Pro便以出色的性能吸引了外界的廣泛關(guān)注。谷歌在博客中強(qiáng)調(diào)，Gemini 2.5 Pro在一系列行業(yè)基準(zhǔn)測試中達(dá)到了“最先進(jìn)水平”（state-of-the-art），包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測試。

在“人類的最后考試”測試中，它獲得了18.8%的最高分?jǐn)?shù)，這是目前為止所有未使用（外接工具）的大模型中最好的成績。?“人類最后的考試”是一個由全球近千名專家共同設(shè)計的多模態(tài)基準(zhǔn)測試，旨在評估大型語言模型的能力極限。?該測試包含3000道涵蓋數(shù)學(xué)、人文學(xué)科和自然科學(xué)等多個領(lǐng)域的前沿問題。

“人類的最后考試”測試圖片來源：谷歌官網(wǎng)

在專注于人類理解的大模型競技場測試中，Gemini 2.5 Pro也以創(chuàng)紀(jì)錄的優(yōu)勢拔得頭籌，創(chuàng)下了歷史最大的分?jǐn)?shù)跨越，比Grok-3和GPT-4.5高出40多分。

圖片來源：大模型競技場

具體來看，在代號為“nebula”的測試中，Gemini 2.5 Pro橫掃所有類別，奪得第一，獨(dú)攬數(shù)學(xué)、創(chuàng)意寫作、指令遵循、長查詢和多輪對話這五大領(lǐng)域的冠軍；

圖片來源：X平臺截圖

在人類偏好測試中，Gemini 2.5 Pro同樣是在所有類別中問鼎榜首，只在困難提示和編碼領(lǐng)域與Grok-3/GPT-4.5拿到并列冠軍。

人類偏好測試圖片來源：大模型競技場

在網(wǎng)頁開發(fā)領(lǐng)域，Gemini 2.5 Pro也是脫穎而出，在WebDev Arena上排名第二，它較上一代Gemini有了巨大的飛躍，超越了Claude 3.5 Sonnet，是第一款能與Claude抗衡的模型，但仍低于Claude 3.7 Sonnet。

WebDev Arena測試圖片來源：大模型競技場

在Vision Arena（視覺競技場）測試中，作為多模態(tài)模型的Gemini 2.5 Pro也處于領(lǐng)先的位置。

Vision Arena測試圖片來源：大模型競技場

記者實(shí)測：編程方面實(shí)力強(qiáng)大，但審美及玩家體驗(yàn)待提升

每經(jīng)記者第一時間對Gemini 2.5 Pro進(jìn)行了測試，測試包括數(shù)學(xué)、火星登陸模擬測試、網(wǎng)頁開發(fā)和小游戲制作。

數(shù)學(xué)問題

每經(jīng)記者拋出的是一個博士資格考試的群論數(shù)學(xué)問題：有多少個147階的非同構(gòu)群？

Gemini 2.5 Pro在數(shù)量和具體的非同構(gòu)群上都給出了完美的解答。值得一提的是，此前記者也用這一問題對其他大模型進(jìn)行了測試，Grok3、o3-mini和DeepSeek-R1都或多或少出現(xiàn)了錯誤，不是數(shù)量沒找對，就是具體的非同構(gòu)群出錯。

火星登陸模擬

接下來，每經(jīng)記者測試的是Gemini 2.5 Pro在數(shù)學(xué)和物理方面的綜合能力。測試選擇的是馬斯克的經(jīng)典問題：繪制一個登陸火星并返回的火箭軌道圖。

Gemini 2.5 Pro給出了一個完成度超高的動態(tài)圖像，包含任務(wù)天數(shù)、具體軌道示意圖等要素。并且，它還稱，這只是一個簡單版本，如果允許它接入天體數(shù)據(jù)庫的話，它還可以制作一個更準(zhǔn)確的版本出來。

網(wǎng)頁開發(fā)

在前端設(shè)計方面，每經(jīng)記者要求它設(shè)計一個有互動性的世界風(fēng)光介紹網(wǎng)站。

Gemini 2.5 Pro輸出了一個完整的網(wǎng)站，并且?guī)в芯包c(diǎn)介紹和互動地圖探索相關(guān)功能。但是，在具體細(xì)節(jié)上，它犯了很多小錯誤，例如，景點(diǎn)介紹的圖片不僅單一，而且還都是不相關(guān)的內(nèi)容。此外，整體網(wǎng)頁設(shè)計的色調(diào)也不甚美觀。

小游戲制作

最后，每經(jīng)記者讓Gemini 2.5 Pro制作一個類似于flappy bird的小游戲，標(biāo)準(zhǔn)是卡通畫風(fēng)，背景要隨游玩時間變換，玩家主角要是一個小飛象，要有有趣的玩法創(chuàng)新。

在短暫的思考后，Gemini 2.5 Pro輸出了完成這個游戲需要的500多行代碼。這一游戲非常完美地契合了每經(jīng)記者給出的描述，并且對玩法創(chuàng)新的模糊描述也給出了良好的回應(yīng)，自行思考出了無敵道具玩法，吃下金花生就可以在短時間內(nèi)無敵。

更重要的是，這一游戲并沒有出現(xiàn)任何bug，只需要復(fù)制粘貼就可以流暢運(yùn)行。

在此前的大模型測試中，第一次的輸出結(jié)果或多或少會出現(xiàn)一些bug，影響游戲體驗(yàn)。不過，還是要指出的一點(diǎn)是，Gemini 2.5 Pro只考慮了背景變化的要求，卻沒注意到其生成的游戲背景圖案中，云朵變化速度過快，太費(fèi)眼睛。

綜上，每經(jīng)記者認(rèn)為，Gemini 2.5 Pro在科學(xué)類問題和編程等硬實(shí)力上實(shí)力滿滿，但在審美和玩家體驗(yàn)等軟實(shí)力上還有一點(diǎn)欠缺。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

Gemini 谷歌編程大模型

上一篇文章

注意！力合微將于4月16日召開股東大會

返回每經(jīng)網(wǎng)首頁

下一篇文章

東吳證券給予中材國際買入評級，2024年年報點(diǎn)評，近期獲1份券商研報關(guān)注

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

<nav id="ks4m2"><dd id="ks4m2"></dd></nav>

<small id="ks4m2"></small>