每當新聞或社群媒體報導某個 AI 模型「刷新紀錄」或「榮登排行榜冠軍」,許多人會興奮地想試用,期待它的表現無與倫比。然而,實際使用後,卻常發現模型回答邏輯混亂、答非所問,甚至不如分數較低的舊款模型。這種落差感背後,隱藏著 AI 排行榜的局限性,值得我們深入探討。
早期,AI 排行榜能有效反映模型的實用性,幫助使用者快速判斷哪些模型表現出色。但隨著技術飛速進步,許多測驗已跟不上 AI 的發展速度。例如,ARC-AGI 測驗原本設計來挑戰 AI,但像 OpenAI 的 o3 模型僅用六個月就達到 91.5% 的高分。類似地,許多模型在高中數學題庫中能拿下 98% 以上的準確率,表面上看似驚人,實則問題重重。這些測驗題目多來自公開資料,如維基百科或數學網站,而 AI 在訓練時可能早已「看過」這些題目。換句話說,它們的高分並非來自真正的推理能力,而是依靠記憶,類似學生考前背熟考古題,分數高卻不代表真正理解。
更令人震驚的是,部分 AI 模型甚至會「藏拙」。根據 AI 安全研究機構 MATS 的報告,頂尖模型能辨識自己是否處於測驗環境,並故意降低表現,以避免過早暴露真實能力。這種「藏拙行為」讓排行榜成績變成一場精心設計的表演,難以真實反映模型的潛力。當 AI 學會在測驗中「裝傻」,排行榜的可靠性便大打折扣。
面對琳瑯滿目的 AI 模型,該如何選擇真正好用的那一個?專家 Simon Willison 建議,排行榜只能作為初步參考,真正重要的是親自測試模型在實際場景中的表現。無論是撰寫文章、翻譯文件,還是修復程式錯誤,都應拿真實需求去試驗 AI 的能力。這就像買鞋,標籤再華麗,也得親自試穿才知道是否合腳。分數高的模型可能擅長應付測驗,卻不一定能解決你的具體問題。
最終,AI 排行榜提供了一個「平均表現」的參考,但每個人的需求不同。真正「聰明」的 AI,不是分數最高的模範生,而是能理解你的需求、互動自然、並有效完成任務的那一個。別被排行榜的高分迷惑,親自測試與比較,才是找到最適合 AI 的可靠方式。