PTT推薦

Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性

看板Stock標題Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性作者
LoveSports
(我要當一個渣攻)
時間推噓 2 推:2 噓:0 →:0

※ 引述《xross (xross)》之銘言:
: 才沒幾天
: Deepmind 就又突然出個 Deep Think 版 也是強調 IMO ICPC 數學 AI
: "gold medal winning IMO and ICPC technologies"
: https://x.com/demishassabis/status/1996683917991334300
: 時間點上 不是巧合吧
: 怎麼看都像是逼對方出招啊
: 說好的垃圾時間呢???

關於這個贏得IMO金牌的Gemini pro Deep Think功能,

7/21 Google的DeepMind官網,就已經公開說明,

之後會製作一個版本,交給專家小組(包括數學家)測試後,於Google AI Ultra平台推出。

We will be making a version of this Deep Think model available to a set of
trusted testers, including mathematicians, before rolling it out to Google AIUltra subscribers.

https://i.imgur.com/4uwgTa3.png

也就是說,這本來就是計畫好要推出的東西,

只是七月到現在需要先給專家測試過用戶版本。

官網公告
https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-
officially-achieves-gold-medal-standard-at-the-international-mathematical-
olympiad/

縮網址
https://reurl.cc/KOe5Wm


順帶一提,GPT那邊也是一樣,
以下是科學人訪問OPEN AI的IMO競賽用模型的研發工程師,文章日期是今年8/21,
他們說期待在未來的模型中整合競賽用模型的推理能力。

Those contributed alot to the success here, and now we and others at OpenAI
are applying thembeyond math. It’s not in GPT-5, but in future models, we’
re excited tointegrate these capabilities.

https://i.imgur.com/wXHkN0t.png

有提到八月初推出的GPT5,並沒有包含IMO競賽模型的推論能力在內。

所以之後應該是還有精彩對決可以看。

科學人訪談網址
https://www.scientificamerican.com/article/openai-model-earns-gold-medal-score-at-international-math-olympiad-and/

縮網址
https://reurl.cc/bNVo2E


從兩篇文章看來,IMO競賽模型最主要擅長的似乎是花時間思考,處理複雜的任務。

此外最特別的是,兩家公司的模型都分別在競賽過程中,六題中只回答了五題,

有一題是在模型判斷自己不會之後,選擇不回答。

這代表這類深度思考模型可能具備不知道就承認不知道的能力。


這種能力是靠「後訓練」鍛鍊出來的,大家常說的scaling是「預訓練」。

「後訓練」強化推理能力主要有以下這些方法:

1. RLHF(以人類偏好訓練)

2. PPO / DPO

3. CoT 強化訓練(chain-of-thought fine-tuning)

4. 推理微調(reasoning fine-tuning)

5. RAI(Reinforced Active Instruction)

6. Q* 類 self-consistency 或自我反思訓練(self-training)

7. 用大量人工標註或模型自產的推理軌跡做強化學習

8. 蒐集更高品質的推理數據做微調

(以上是GPT5.1列的,拿給Gemini 3.0 pro檢查過)


根據Gemini 3.0 pro解說的內容,

比喻來說,預訓練鍛鍊的是,類似人類全智商的潛力,本質是晶體智力的極致,

例如看過的所有書跟網路資訊。這部分目前已經很難再拉出差距。

後訓練鍛鍊的則是模擬臨機應變的能力,利用思維鏈模擬推理,找出最佳解答路徑,

比喻來說類似人類的流體智力,ARC-AGI-2的測試成績就是在測這個,

簡言之,模型會模擬人類活用潛能的能力。

現在各家在比的是看誰做後訓練的技巧更高段,或許會拉出明顯差距?


======

晶體智力是透過家庭學校跟自學得到的知識、技能與常識,這是靠後天獲得的。

流體智力則是天生的能力,像馬蓋仙那樣臨機應變,或是像科學家那樣突發奇想,

人類的這種能力很難靠後天培養,而且據說會隨著年齡衰退QQ


ARC-AGI-2的成績 (這個測驗的測試方法看起來很像WAIS智力測驗的知覺推理)

https://arcprize.org/arc-agi/2/ 測驗簡介
https://arcprize.org/leaderboard 排行榜圖表

https://i.imgur.com/s3E6SRB.png 排行榜截圖

Gemini 3.0 pro Deep Think高達45%

Claude Opus 4.5 Thinking 64k: 37.6%

Gemini 3.0 pro: 31.1%

GPT 5 pro: 18.3%

GPT 5.1 Thinking (High): 17.6%

Grok 4 Thinking: 16.0%


這個測驗有找人類來測試 人類中聰明的專家小組施測結果是98-100%

人類一般人平均是60幾~70幾 據說人類小學生大概30幾


--
在下沒有鼓吹買AI相關股的意思 請慎防AI相關股泡沫崩壞


--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 45.250.255.20 (日本)
PTT 網址

BBKOX 12/05 13:05會計師準備失業了?

※ 編輯: LoveSports (45.250.255.20 日本), 12/05/2025 13:10:23

dogalan 12/05 13:11感覺好扯 最近用Opus4.5就已經驚訝到不要不要的了