电竞比分网-中国电竞赛事及体育赛事平台

分享

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

 新用戶74969551 2025-09-11 發(fā)布于江西

人類一眼就能看懂的文字,AI居然全軍覆沒。

來自A*STAR、NUS、NTU、清華、南開等機構(gòu)的研究團隊,最近有個新發(fā)現(xiàn):

不管是OpenAI的GPT-5、GPT-4o,還是谷歌Gemini、Anthropic Claude,甚至國內(nèi)的Qwen、LLaVA,在面對一些“看得見但讀不懂”的文字時,全都表現(xiàn)極差,直接“翻車”。

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

先切再疊,AI束手無策

VYU團隊設(shè)計了兩個小實驗:

1、選取了100條四字成語,把每個漢字橫切、豎切、斜切,再把碎片重新拼接。

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類讀起來毫無壓力,AI卻幾乎全錯。

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

2、挑選了100個八字母英文單詞,把前后兩半分別用紅色和綠色渲染,再疊加在一起。

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

對人類來說,這幾乎不構(gòu)成挑戰(zhàn)——因為我們的視覺系統(tǒng)對紅/綠通道異常敏感,大腦能自動分離顏色,然后拼出完整的單詞。

但對AI模型來說,結(jié)果卻完全不同:

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

即使是最新發(fā)布的大模型,在這些問題上也屢屢碰壁。

無論是Gemini 2.5 Pro:

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

還是Kimi 2(Switch to 1.5 for visual understanding) :

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

(PS:Kimi 2最終推測的答案是hardline)

又或者Qwen3-Max-Preview

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

全都得不到正確的結(jié)果。

AI不懂符號分割與組合

對該現(xiàn)象進行分析,VYU團隊認(rèn)為,根本原因在于AI靠模式匹配,不懂文字結(jié)構(gòu)。

人類之所以能“讀懂”,是因為我們依賴結(jié)構(gòu)先驗——知道漢字由偏旁部首組成,知道英文是按字母組合的。

而大模型只是把文字當(dāng)作“圖片模式”來識別,沒有符號分割與組合的機制。

于是,只要文字稍作擾動(但人類依舊能看懂),AI就會徹底崩潰。

人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”

打開今日頭條查看圖片詳情

這個問題之所以值得研究,是因為它關(guān)系到AI落地的核心挑戰(zhàn):

在教育和無障礙應(yīng)用里,AI可能無法正確識別“非標(biāo)準(zhǔn)文本”。

在歷史文獻與科學(xué)筆記整理中,AI無法像人類一樣從殘缺文字中恢復(fù)含義。

在安全場景里,攻擊者甚至可以利用這種“盲點”繞過AI審查。

VYU團隊認(rèn)為,要想讓AI擁有類似人類的韌性,必須重新思考VLMs如何整合視覺與文本——

也許需要新的訓(xùn)練數(shù)據(jù)、更注重分割的結(jié)構(gòu)先驗,或者全新的多模態(tài)融合方式。

更重要的是,這一結(jié)果也提醒我們:人類的閱讀理解從來不是單一模態(tài)的過程,而是依賴多重感知與推理的綜合能力。

論文鏈接:

https://zjzac./publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

張揚

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多