VYU團隊 投稿
(資料圖片僅供參考)
量子位 | 公眾號 QbitAI
人類一眼就能看懂的文字,AI居然全軍覆沒。
來自A*STAR、NUS、NTU、清華、南開等機構的研究團隊,最近有個新發(fā)現:
不管是OpenAI的GPT-5、GPT-4o,還是谷歌Gemini、Anthropic Claude,甚至國內的Qwen、LLaVA,在面對一些“看得見但讀不懂”的文字時,全都表現極差,直接“翻車”。
先切再疊,AI束手無策
VYU團隊設計了兩個小實驗:
1、選取了100條四字成語,把每個漢字橫切、豎切、斜切,再把碎片重新拼接。
人類讀起來毫無壓力,AI卻幾乎全錯。
2、挑選了100個八字母英文單詞,把前后兩半分別用紅色和綠色渲染,再疊加在一起。
對人類來說,這幾乎不構成挑戰(zhàn)——因為我們的視覺系統對紅/綠通道異常敏感,大腦能自動分離顏色,然后拼出完整的單詞。
但對AI模型來說,結果卻完全不同:
即使是最新發(fā)布的大模型,在這些問題上也屢屢碰壁。
無論是Gemini 2.5 Pro:
還是Kimi 2(Switch to 1.5 for visual understanding) :
(PS:Kimi 2最終推測的答案是hardline)
又或者Qwen3-Max-Preview:
全都得不到正確的結果。
AI不懂符號分割與組合
對該現象進行分析,VYU團隊認為,根本原因在于AI靠模式匹配,不懂文字結構。
人類之所以能“讀懂”,是因為我們依賴結構先驗——知道漢字由偏旁部首組成,知道英文是按字母組合的。
于是,只要文字稍作擾動(但人類依舊能看懂),AI就會徹底崩潰。
這個問題之所以值得研究,是因為它關系到AI落地的核心挑戰(zhàn):
在歷史文獻與科學筆記整理中,AI無法像人類一樣從殘缺文字中恢復含義。
在安全場景里,攻擊者甚至可以利用這種“盲點”繞過AI審查。
VYU團隊認為,要想讓AI擁有類似人類的韌性,必須重新思考VLMs如何整合視覺與文本——
凡注有"環(huán)球傳媒網"或電頭為"環(huán)球傳媒網"的稿件,均為環(huán)球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環(huán)球傳媒網",并保留"環(huán)球傳媒網"的電頭。
- 熱訊:從2025全球工業(yè)互聯網大會看數智賦能多元領域
- 全球變暖如何影響人們飲食選擇?最新研究稱或致增加攝入添加糖
- 創(chuàng)造中國電視劇制作多個紀錄 用“太行精神”拍《八路軍》
- 熱點評!13.2萬億元、50.6%……多領域活力數據折射經濟強大韌性與潛力
- 全國擊劍錦標賽|黃芊芊實現個人三連冠 今日看點
- 《技能照亮前程》丨第三屆全國技能大賽主題曲發(fā)布_微資訊
- 【聚看點】白露:秋涼漸至,正宜潤補(節(jié)氣與健康)
- 重點聚焦!(鄉(xiāng)村行·看振興)閩東“小紅都”煥新顏:環(huán)境變美了,人流進來了
- 視訊!8月份中國大宗商品價格指數公布連續(xù)4個月環(huán)比上升
- 香港賽馬會:相信賽馬運動能給香港帶來更多游客 焦點速遞
資訊
- 每日快看:人類秒懂,AI崩潰:一個簡單測試,就讓GPT-5、Gemini等頂級模型集體“翻車”
- 衛(wèi)星導航板塊拉升 海格通信漲停
- 9月10日生意社鈷基準價為270800.00元/噸
- 穩(wěn)住電子信息制造業(yè)首位優(yōu)勢
- 微速訊:秋季“限定”食材 滋陰潤燥“擔當”
- 熱點評!8個主要產油國決定自10月起日均增產13.7萬桶
- 諾如病毒開始進入流行期 預防感染要做好這五點
- 最資訊丨《只此青綠》《永不消逝的電波》沖擊800場演出 這些爆款舞劇憑什么一路長紅
- 浙江建德舉辦綠水青山就是金山銀山主題影像創(chuàng)作大展-今頭條
- 《神奇的北緯·茶的傳人》發(fā)布 從北緯發(fā)現寶藏國茶