Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性
※ 引述《xross (xross)》之銘言:
: 才沒幾天
: Deepmind 就又突然出個 Deep Think 版 也是強調 IMO ICPC 數學 AI
: "gold medal winning IMO and ICPC technologies"
: https://x.com/demishassabis/status/1996683917991334300
: 時間點上 不是巧合吧
: 怎麼看都像是逼對方出招啊
: 說好的垃圾時間呢???
關於這個贏得IMO金牌的Gemini pro Deep Think功能,
7/21 Google的DeepMind官網,就已經公開說明,
之後會製作一個版本,交給專家小組(包括數學家)測試後,於Google AI Ultra平台推出。
We will be making a version of this Deep Think model available to a set of
trusted testers, including mathematicians, before rolling it out to Google AIUltra subscribers.
https://i.imgur.com/4uwgTa3.png
也就是說,這本來就是計畫好要推出的東西,
只是七月到現在需要先給專家測試過用戶版本。
官網公告
https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-
officially-achieves-gold-medal-standard-at-the-international-mathematical-
olympiad/
順帶一提,GPT那邊也是一樣,
以下是科學人訪問OPEN AI的IMO競賽用模型的研發工程師,文章日期是今年8/21,
他們說期待在未來的模型中整合競賽用模型的推理能力。
Those contributed alot to the success here, and now we and others at OpenAI
are applying thembeyond math. It’s not in GPT-5, but in future models, we’
re excited tointegrate these capabilities.
https://i.imgur.com/wXHkN0t.png
有提到八月初推出的GPT5,並沒有包含IMO競賽模型的推論能力在內。
所以之後應該是還有精彩對決可以看。
科學人訪談網址
https://www.scientificamerican.com/article/openai-model-earns-gold-medal-score-at-international-math-olympiad-and/
從兩篇文章看來,IMO競賽模型最主要擅長的似乎是花時間思考,處理複雜的任務。
此外最特別的是,兩家公司的模型都分別在競賽過程中,六題中只回答了五題,
有一題是在模型判斷自己不會之後,選擇不回答。
這代表這類深度思考模型可能具備不知道就承認不知道的能力。
這種能力是靠「後訓練」鍛鍊出來的,大家常說的scaling是「預訓練」。
「後訓練」強化推理能力主要有以下這些方法:
1. RLHF(以人類偏好訓練)
2. PPO / DPO
3. CoT 強化訓練(chain-of-thought fine-tuning)
4. 推理微調(reasoning fine-tuning)
5. RAI(Reinforced Active Instruction)
6. Q* 類 self-consistency 或自我反思訓練(self-training)
7. 用大量人工標註或模型自產的推理軌跡做強化學習
8. 蒐集更高品質的推理數據做微調
(以上是GPT5.1列的,拿給Gemini 3.0 pro檢查過)
根據Gemini 3.0 pro解說的內容,
比喻來說,預訓練鍛鍊的是,類似人類全智商的潛力,本質是晶體智力的極致,
例如看過的所有書跟網路資訊。這部分目前已經很難再拉出差距。
後訓練鍛鍊的則是模擬臨機應變的能力,利用思維鏈模擬推理,找出最佳解答路徑,
比喻來說類似人類的流體智力,ARC-AGI-2的測試成績就是在測這個,
簡言之,模型會模擬人類活用潛能的能力。
現在各家在比的是看誰做後訓練的技巧更高段,或許會拉出明顯差距?
======
晶體智力是透過家庭學校跟自學得到的知識、技能與常識,這是靠後天獲得的。
流體智力則是天生的能力,像馬蓋仙那樣臨機應變,或是像科學家那樣突發奇想,
人類的這種能力很難靠後天培養,而且據說會隨著年齡衰退QQ
ARC-AGI-2的成績 (這個測驗的測試方法看起來很像WAIS智力測驗的知覺推理)
https://arcprize.org/arc-agi/2/ 測驗簡介
https://arcprize.org/leaderboard 排行榜圖表
https://i.imgur.com/s3E6SRB.png 排行榜截圖
Gemini 3.0 pro Deep Think高達45%
Claude Opus 4.5 Thinking 64k: 37.6%
Gemini 3.0 pro: 31.1%
GPT 5 pro: 18.3%
GPT 5.1 Thinking (High): 17.6%
Grok 4 Thinking: 16.0%
這個測驗有找人類來測試 人類中聰明的專家小組施測結果是98-100%
人類一般人平均是60幾~70幾 據說人類小學生大概30幾
--
在下沒有鼓吹買AI相關股的意思 請慎防AI相關股泡沫崩壞
--
會計師準備失業了?
感覺好扯 最近用Opus4.5就已經驚訝到不要不要的了
怎麼看結論只有小學程度?現在就能拿IMO金牌應該沒
這麼差。感覺有機會訓練出自己能導公式的ai了,各
大猜想要證明了嗎
謝謝
29
我看版上一堆 AI 下半場了 垃圾時間了 之類的分析文 可是我左看又看 怎樣都像白刃戰 拼刺刀 殺瘋了 卷瘋了 啥 Code Red 都出來了 Gemini 3 才出來幾週 Deepseek 就來葛 +0.1 (v3.1 -> v3.2) 包含 IMO 數學金牌 AI54
的確是垃圾時間, 但是垃圾時間的定義跟你說的不同, 首先, 我們來看最近最流行的這句話: Scaling is over and LLMs are a dead end.![Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性 Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性](https://img.youtube.com/vi/H_suOWdYLq0/mqdefault.jpg)
8
算力還是關鍵,沒有不是關鍵 GENINI 3的成功正是再次證明算力是有用的 各大平台只早不是只關注純粹LLMs了, 目前新的重點都是在影像與世界模型, 準備讓人工智能進入物理世界與真實世界,
爆
[情報] 50美元訓練出媲美DeepSeek R1標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
45
[爆卦] Openai:GPT o1超越人類理工博士OpenAI今天發布經過強化學習訓練的新型大語言模型o1 擁有執行複雜推理的能力 這就是傳說中的草莓模型 o1在回答前會進行深入思考並產生內部推理鏈![[爆卦] Openai:GPT o1超越人類理工博士 [爆卦] Openai:GPT o1超越人類理工博士](https://i.imgur.com/4AZglM0b.png)
38
[討論] OpenAI GPT o1模型上禮拜OpenAI發布經過強化學習訓練的新型語言模型o1 宣稱模型有更強大的思考能力 o1在回答之前會深入思考產生內部的推理練 結果就是o1模型在各個人類頂尖領域獲得相當好的成績![[討論] OpenAI GPT o1模型 [討論] OpenAI GPT o1模型](https://static-alpha.wallstcn.com/wscn/_static/share.png)
35
[爆卦] Gemini AI 數學奧林匹亞奪金牌Google DeepMind 的 Gemini Deep Think AI 模型在 2025 年國際數學奧林匹亞(IMO)中 表現卓越,成功達到金牌標準。這標誌著 AI 在解決複雜數學問題上的重大突破。 Gemini Deep Think 在 IMO 六道題目中,有五道完美解答,總分達 35 分,符合金牌資格 。它能全程以自然語言推理,並在比賽時間內生成嚴謹數學證明。DeepMind 也公開了這些![[爆卦] Gemini AI 數學奧林匹亞奪金牌 [爆卦] Gemini AI 數學奧林匹亞奪金牌](https://i.imgur.com/jD5MCPtb.jpeg)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
14
[爆卦] 50美元訓練出媲美DeepSeek R1李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe![[爆卦] 50美元訓練出媲美DeepSeek R1 [爆卦] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。4
[問卦] AI的湧現能力以及人類智慧的起源最近AI很夯 但是大家有沒有想過 其實大型語言模型做的事情就只有一個 就是“文字接龍” 那為什麼文字接龍可以讓AI看起來似乎有了智慧![[問卦] AI的湧現能力以及人類智慧的起源 [問卦] AI的湧現能力以及人類智慧的起源](https://img.youtube.com/vi/iP_7y6n2IFo/mqdefault.jpg)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
84
[請益] 0056可以這樣操作嗎![[請益] 0056可以這樣操作嗎 [請益] 0056可以這樣操作嗎](https://i.imgur.com/z8X13Bfb.jpg)
54
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性![Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性 Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性](https://img.youtube.com/vi/H_suOWdYLq0/mqdefault.jpg)
38
Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐![Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐 Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐](https://i.imgur.com/maDWxU7b.jpg)
29
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性20
Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐15
Re: [新聞] Fed主席大熱門哈塞特表態:下周應降息 預16
Re: [心得] 山椒魚盤勢觀察![Re: [心得] 山椒魚盤勢觀察 Re: [心得] 山椒魚盤勢觀察](https://i.mopix.cc/LLOj00.jpg)
14
[請益] 第一金最近有什麼大事要發生嗎?11
Re: [標的] 記憶體族群回檔 彎腰撿鑽石多![Re: [標的] 記憶體族群回檔 彎腰撿鑽石多 Re: [標的] 記憶體族群回檔 彎腰撿鑽石多](https://i.imgur.com/MO9jzZjb.gif)
8
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性5
[情報] 2548 華固 10月營收 MoM 702% YoY 37447%![[情報] 2548 華固 10月營收 MoM 702% YoY 37447% [情報] 2548 華固 10月營收 MoM 702% YoY 37447%](https://i.meee.com.tw/gQ7aplg.png)
4
[情報] 日本兩年期公債收益率升至1.03%1
Re: 00641R 富邦日本反1 小單多
X
Re: [請益] 0056可以這樣操作嗎
[情報] 工紙族群多
[標的] 2454聯發科2330台積電 哪個好![[標的] 2454聯發科2330台積電 哪個好 [標的] 2454聯發科2330台積電 哪個好](https://i.imgur.com/TbK5aJcb.jpeg)