您當前的位置：環(huán)球傳媒網>資訊 > 正文

每日快看：人類秒懂，AI崩潰：一個簡單測試，就讓GPT-5、Gemini等頂級模型集體“翻車”

2025-09-10 12:03:28 來源：量子位編輯：

VYU團隊投稿

(資料圖片僅供參考)

量子位 | 公眾號 QbitAI

人類一眼就能看懂的文字，AI居然全軍覆沒。

來自A*STAR、NUS、NTU、清華、南開等機構的研究團隊，最近有個新發(fā)現：

不管是OpenAI的GPT-5、GPT-4o，還是谷歌Gemini、Anthropic Claude，甚至國內的Qwen、LLaVA，在面對一些“看得見但讀不懂”的文字時，全都表現極差，直接“翻車”。

先切再疊，AI束手無策

VYU團隊設計了兩個小實驗：

1、選取了100條四字成語，把每個漢字橫切、豎切、斜切，再把碎片重新拼接。

人類讀起來毫無壓力，AI卻幾乎全錯。

2、挑選了100個八字母英文單詞，把前后兩半分別用紅色和綠色渲染，再疊加在一起。

對人類來說，這幾乎不構成挑戰(zhàn)——因為我們的視覺系統對紅/綠通道異常敏感，大腦能自動分離顏色，然后拼出完整的單詞。

但對AI模型來說，結果卻完全不同：

即使是最新發(fā)布的大模型，在這些問題上也屢屢碰壁。

無論是Gemini 2.5 Pro:

還是Kimi 2（Switch to 1.5 for visual understanding）：

（PS：Kimi 2最終推測的答案是hardline）

又或者Qwen3-Max-Preview：

全都得不到正確的結果。

AI不懂符號分割與組合

對該現象進行分析，VYU團隊認為，根本原因在于AI靠模式匹配，不懂文字結構。

人類之所以能“讀懂”，是因為我們依賴結構先驗——知道漢字由偏旁部首組成，知道英文是按字母組合的。

于是，只要文字稍作擾動（但人類依舊能看懂），AI就會徹底崩潰。

這個問題之所以值得研究，是因為它關系到AI落地的核心挑戰(zhàn)：

VYU團隊認為，要想讓AI擁有類似人類的韌性，必須重新思考VLMs如何整合視覺與文本——

freesexvideos性少妇欧美,httpwww色午夜com日本,久久精品成人免费国产,欧美贵妇videos办公室,国产成人精品一区二区三区免费

新視野