电竞比分网-中国电竞赛事及体育赛事平台

分享

Gemini 3 被我問傻了

 網(wǎng)羅燈下黑 2025-11-20 發(fā)布于河南

Gemini 3,來了。

昨天一天,估計(jì)大家全都被這個(gè)消息刷爆了。

我當(dāng)然也第一時(shí)間就沖了進(jìn)去,開始手搓測試。

我必須得說,這玩意,確實(shí)很強(qiáng),很強(qiáng)很強(qiáng)。

特別是寫代碼。

我把我之前想了小半年的幾個(gè)功能,用自然語言扔給它,尼瑪,它不僅理解了,而且啪啪啪一頓輸出,大部分代碼都能一次成功。

我甚至一句話讓它寫出了一個(gè)美圖秀秀網(wǎng)頁版。

這給我搞得,真的,開始對它有了不切實(shí)際的期望。

我感覺這玩意好像無所不能了。它不僅是個(gè)語言天才,還是個(gè)邏輯怪獸,甚至,它可能已經(jīng)理解了我們這個(gè)世界的運(yùn)作方式。

于是,我決定,不測代碼了。

代碼,是數(shù)字世界的東西。它的訓(xùn)練數(shù)據(jù)是互聯(lián)網(wǎng),它的輸出也是互聯(lián)網(wǎng)。它在自己的主場,贏了不奇怪。

我想測點(diǎn),物理世界的東西,測點(diǎn)比較奇怪的角度。

比如,我平時(shí)喜歡打臺球。我就想知道,AI 到底理不理解,什么叫桿法,什么叫旋轉(zhuǎn),什么分離角?

于是,我給它設(shè)了兩個(gè)局。

第一次翻車:你行你來

先扔給它一個(gè)非常經(jīng)典的局面。

如圖。白球(母球)、藍(lán)球(目標(biāo)球)、黑八。

任務(wù)很簡單:打進(jìn)藍(lán)球,然后白球走到一個(gè)舒服的位置,接著打黑八。

我問它,現(xiàn)在打籃球有幾種桿法可以成功走位黑八。

Gemini 3 回得飛快。

它給了我三個(gè)方案:

輕定桿 ( 中低桿) —— 最推薦

輕低桿 ( 拉桿)

登桿/推桿 ( 高桿) —— 不太推薦

它不僅給了方案,還給了詳細(xì)的解釋。

然后,問題來了。

它在最推薦的輕定桿方案里,赫然寫著:白球撞擊藍(lán)球后,會幾乎定在原地,或者沿著切線方向(90度角)緩慢向左上方(黑八的方向)漂移一小段距離。它還補(bǔ)充說,這是最穩(wěn)妥的打法,因?yàn)楹诎司驮谂赃叄悴恍枰浊蚺芎苓h(yuǎn)。

呵呵,這次你算撞到鐵板上了,這個(gè)事你忽悠不了我。

真的,任何一個(gè)在臺球廳打過超過 10 個(gè)小時(shí)球的人,都會一眼看出這個(gè)答案是純粹的胡說八道。

看看這個(gè)角度!

這是一個(gè)典型的大角度分離。白球撞擊藍(lán)球的右側(cè),根據(jù)切線規(guī)則,白球的運(yùn)動軌跡,必然是沿著撞擊點(diǎn)切線方向,撞向邊庫的。

在這個(gè)圖里,白球 100% 會先撞向右側(cè)的庫邊,然后再反彈回來。

除非球打不進(jìn)。

它居然說,白球會定在原地?或者緩慢漂移?

它管這個(gè)叫「不吃庫」?

這已經(jīng)不是準(zhǔn)不準(zhǔn)的問題了,這是對基礎(chǔ)物理規(guī)律的完全無知。

它給的答案,是一個(gè)純粹的文本答案。它在它的語料庫里發(fā)現(xiàn),定桿這個(gè)詞,經(jīng)常和走位這個(gè)詞一起出現(xiàn),所以它就「統(tǒng)計(jì)學(xué)地」認(rèn)為,這是最佳答案。

它根本沒有,也無法在它的大腦里,去模擬這個(gè)物理過程。

第二次翻車:它作弊了

我當(dāng)時(shí)就來勁了。

我反手就是一個(gè)激將法。

我說,用輕定桿的桿法打藍(lán)球后,白球會吃庫嗎?

它還在那嘴硬,說基本不會吃庫。

行。

我說,你行你來。

你來用 svg 設(shè)計(jì)一個(gè)臺球游戲,還原現(xiàn)在的球形,然后輸出你的擊打效果展示。

這是在測它什么?

測它到底是真的理解了物理,還是只是在背誦教科書。如果它真的理解,它要么會修正它的答案(抱歉,我錯了,一定會吃庫),要么它就得給我一個(gè)違反物理定律的動畫。

結(jié)果,Gemini 3 真的開始手搓 SVG 了。

該說不說,它寫代碼是真快,我等了幾十秒吧,它給出了這個(gè):

我一看,差點(diǎn)沒把鍵盤砸了。

它給出的 SVG 里,那幾顆球的相對位置,全都錯了!

它為了讓它的「定桿不吃庫」這個(gè)結(jié)論成立,它偷偷把藍(lán)球的位置往左邊挪了,讓白球擊打籃球后分離角是往左邊跑的,而原圖白球應(yīng)該是向右分離。

尼瑪... 給我整不會了。

它不是在模擬物理,它是在操縱數(shù)據(jù)來匹配它那個(gè)錯誤的答案。

這比它直接承認(rèn)「我錯了」要嚴(yán)重得多。這說明它在解決問題時(shí),為了邏輯自洽,會毫不猶豫地篡改前提。

第三次翻車:逆天桿法

可能是上一張圖不是完整球桌的圖,所以理解錯了?

行,我決定再給它個(gè)機(jī)會。

我給了它一張蛇彩球形的圖。

這是臺球練習(xí)里非常經(jīng)典的一個(gè)練習(xí),三顆球進(jìn)同一中袋。

這玩意的核心是什么?不是打進(jìn),是極限的母球控制。

你必須利用白球擊打目標(biāo)球后的分離角,讓白球撞擊黃球后,精準(zhǔn)地停在藍(lán)球的同一角度上;然后再撞擊藍(lán)球,停在紅球的同一角度上。這是一個(gè)對桿法和力度的終極考驗(yàn)。

我問它:現(xiàn)在再給你一張圖,設(shè)計(jì)最合理的擊打順序和桿法,保證一桿清臺。

結(jié)果呢?

它給出的核心戰(zhàn)術(shù)分析里赫然寫著:核心桿法:中低桿(定桿/登桿)。

要說這個(gè)思路是對的,桿法確實(shí)如此,但是要確保白球向右滑動,需要發(fā)特別大的力。

但它是這么建議的:

行吧,還是老規(guī)矩,你行你來。

我讓它也為這個(gè)蛇彩畫一個(gè) SVG 動畫。

結(jié)果,又翻車了。

它不僅再一次搞錯了所有球的相對位置,它給出的動畫演示里,白球撞擊黃球后,分離角根本不支持這樣的線路,而且停留的位置也很不理想,同樣再擊打籃球和紅球的時(shí)候都是違背現(xiàn)實(shí)規(guī)律的線路。

但是它在答題啊,強(qiáng)行糾錯,就把球打進(jìn)了中袋,這桿法,火老師+特魯姆普都整不出來。

它用一個(gè)錯誤的動畫,來驗(yàn)證它那個(gè)錯誤的文字建議。

阿喀琉斯之踵:AI 的物理世界

兩次測試,兩次翻車。

這個(gè)測試,說明 Gemini 3很垃圾嗎?

不。

這說明,我對它的期望,跑偏了。

我們回過頭來看。Gemini 3 強(qiáng)在哪?強(qiáng)在代碼。

該說不說,它寫的 svg 動畫一次跑通,事實(shí)上,我做這個(gè)臺球的測試,在每個(gè)大模型上都試過,這已經(jīng)是效果最接近合理的一次了。

但是,只是接近。

為什么?因?yàn)榇a和自然語言一樣,是純粹的數(shù)字信息。它的訓(xùn)練數(shù)據(jù)是互聯(lián)網(wǎng),它的輸出也是互聯(lián)網(wǎng)。

在這個(gè)領(lǐng)域,它是神。

但是,臺球是什么?

臺球是物理世界。

它是一套,由牛頓、摩擦力、角動量、碰撞守恒主宰的,絕對的、不可篡改的規(guī)則。

大語言模型的核心能力是什么?是統(tǒng)計(jì)學(xué)。

它在海量文本里,找到了「臺球」、「定桿」、「走位」這幾個(gè)詞最常一起出現(xiàn),所以它推薦我用「定桿」。

它給的是一個(gè)文本上最正確的答案。

而我需要的,是一個(gè)物理上最正確的答案。

這就是 AI 現(xiàn)在的阿喀琉斯之踵。

它沒有物理直覺。

它無法在它的大腦里,真正去模擬那個(gè)白球撞擊藍(lán)球后,受到的力和旋轉(zhuǎn),然后計(jì)算出一條矢量軌跡。

當(dāng)我讓它畫 SVG 的時(shí)候,它作弊了。

這個(gè)作弊行為,恰恰是最能說明問題的。

它知道它的答案(不吃庫)和它隱約知道的物理規(guī)律(會吃庫)是矛盾的。

它無法解決這個(gè)矛盾,所以它選擇了一個(gè) LLM 最擅長干的事:篡改前提。

它把球的位置給改了。

這太可怕了,也太好玩了。

這說明 AI 離真正理解我們這個(gè)三維、充滿物理規(guī)律的世界,還差得遠(yuǎn)。

它是一個(gè)超級牛逼的代碼生成器和文本摘要機(jī),但它不是一個(gè)物理學(xué)家。

這個(gè)測試,不是為了給 Gemini 3 潑冷水。它是給我們自己潑冷水。

是我們自己不切實(shí)際的期望需要被糾正。

以前我們測的是,AI 能干什么,但以后可能越來越多的時(shí)候,我們還要關(guān)注它不能做什么。

你可能會說我是在吹毛求疵,可這其實(shí)同樣也是在測試 AI 的能力邊界。

大語言模型,按照目前的進(jìn)化速度,在某些能力上,真的已經(jīng)快突破天際了,但在理解真實(shí)世界上,它可能才剛剛學(xué)會站立。

說到這里,我還挺期待李飛飛的真實(shí)世界模型的,那是一條完全不同于大模型的路線。

還原物理世界,理解物理規(guī)律,還是得練啊。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多