香港新聞連線

48小時極速反擊Gemini 3！ GPT-5.2突襲式發布　 AI界年尾大戰正式開打

美國人工智慧龍頭 OpenAI 在 Google 發布 Gemini 3 後不足 48 小時迅速拉響內部「紅色警戒」，並日前火速推出最新旗艦模型 GPT-5.2，被外界視為對 Google 新模型最強硬嘅正面回擊。OpenAI 表示，新系列中專為複雜知識工作打造嘅「Thinking」版本，係全新設計嘅 GDPval（Global Professional Difficulty Evaluation）基準測試中表現亮眼，係 44 種明確定義嘅專業任務中，有 70.9% 嘅項目表現已達到甚至超越頂尖人類專家水準，而且輸出速度比專家快逾十一倍，意味著在監督下，模型已具備承接大部分實際專業工作的能力。

GDPval 涵蓋高階邏輯推理、艱深數學解題、投行級試算表建模、專業簡報製作、編寫生產等級程式碼、圖像深度理解、長篇上下文處理、多工具協同，以及跨領域多步驟專案管理等真實企業場景。OpenAI 強調，GPT-5.2 大幅降低 AI 幻覺出現率，輸出可靠度顯著提升，為模型在專業級用途上提供關鍵突破。

多家企業早前參與封測並給予正面評價。Notion、Box、Shopify、Harvey、Zoom 等指出，GPT-5.2 展現目前業界最強嘅長程推理能力與工具呼叫準確度；Databricks、Hex、Triple Whale 等資料科學平台亦認為其在代理分析與大規模文件處理方面有明顯領先。程式開發領域方面，Cognition、Warp、Charlie Labs、JetBrains、Augment Code 等多間公司一致表示，GPT-5.2 在「代理式寫程式」（agentic coding）表現全球最強，無論互動寫碼、除錯、程式碼審查或重構大型程式庫，都比前代明顯更成熟。

在 OpenAI 內部針對初級投行分析師常見建模任務嘅測試中，GPT-5.2 Thinking 平均得分由 GPT-5.1 嘅 59.1% 大幅提升至 68.4%，單次任務增幅達 9.3%。程式碼能力方面，GPT-5.2 Thinking 在更嚴格、更接近真實工程場景嘅 SWE-bench Pro 基準測試中取得 55.6% 的業界最高紀錄，展現模型已能以更少人工介入完成端到端程式碼修補與功能開發。

GPT-5.2 系列仍維持三個版本：主攻高速回應嘅 Instant 版、模擬人類思考鏈路、專長中高難度任務嘅 Thinking 版，以及追求最高準確度、具備最多推理步驟嘅 Pro 版，負責處理最困難嘅專家級問題。

外界普遍認為，今次發布節奏明顯是針對 Google Gemini 3 而來，但 OpenAI 官方並未公布兩者直接對比，而是集中展示 GPT-5.2 相對 GPT-5.1 嘅全面升級與在自研 GDPval 基準上的壓倒性優勢。ChatGPT 企業客戶調查顯示，現有 AI 已平均每日為使用者節省約 40 至 60 分鐘，而重度用家每週更可減少超過十小時工作量。隨著 GPT-5.2 正式上線，OpenAI 預期企業與專業服務領域嘅實際效率將進一步大幅提升。

隨住 Gemini 3 與 GPT-5.2 正面撞擊，AI 巨頭之間嘅年末大戰正式升溫，被業界視為 2026 年 AI 代理與知識工作自動化革命嘅前哨戰。