[爆卦] 50美元訓練出媲美DeepSeek R1

JQK2 發表於 2025/2/6 下午7:32:48

看板Gossiping標題[爆卦] 50美元訓練出媲美DeepSeek R1作者

(ACE)時間Feb 6 19:32:48 2025推噓14 推:15 噓:1 →:12

李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型

https://tinyurl.com/ydrtdbu8

https://arxiv.org/pdf/2501.19393

李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSeek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提煉出來的。

https://i.imgur.com/kFg9GjU.jpeg

圖 50美元訓練出媲美DeepSeek R1

斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1。

S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1

推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。

S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力，甚至可以媲美 Reinforcement Learning（強化學習）。

OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好
的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？

S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法：

核心思想：如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？

方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率
！

結果證明，這種方法比 OpenAI o1-preview 還要好！

最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍然很強！

此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。

--

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.170.162 (臺灣)

推

MorrisChang 02/06 19:33好

推

bernardROC 02/06 19:33多頂的筆電阿？_？

推

william826 02/06 19:33一樓我爸爸

→

TexasFlood 02/06 19:35去墾丁大街吃個晚餐還不夠花

推

whitenoise 02/06 19:35硬體跟算力都人家的，當然花不到50美

→

whitenoise 02/06 19:36元

推

Panasonic 02/06 19:37蒸餾可以幹嘛

→

IDfor2010 02/06 19:38https://reurl.cc/M6mDVv

推

lipstick 02/06 19:39完了

→

YumingHuang 02/06 19:41https://tinyurl.com/23lpyxoz

→

pooznn 02/06 19:41濃縮再濃縮提煉再提煉這帖飲落穩系A!!!

→

talrasha 02/06 19:41協尋唐鳳

推

wild2012 02/06 19:42就是同樣的問題多問幾遍的意思

噓

finhisky 02/06 19:50還敢笑中國卷啊美國自己更卷

推

aa1477888 02/06 19:51查了一下基礎模型其實是通義千問2.5

→

aa1477888 02/06 19:51只是拿Gemini 2.0蒸餾出來的答案微調

推

waakye 02/06 19:51再蒸餾一次說不定只要0.1美元

→

fantasyth 02/06 19:56越蒸餾度數越高

推

vodkalime607 02/06 20:00用中國人對付中國人這很中國

推

xabcxabc0123 02/06 20:18重無到有才是厲害的…

推

pupudice 02/06 20:26濃縮再濃縮提煉再提煉

推

joke3547 02/06 21:08有開源嗎？

→

joke3547 02/06 21:08先開源，再看看中國能卷出啥來，嘻嘻

→

raku 02/07 00:13蒸餾法=利用別人訓練好的模型幫忙訓練自己

→

raku 02/07 00:13的模型

推

cocogg 02/07 01:35XDDDDDDDDD

推

iou861007 02/07 01:49別人訓的模型啊==

→

DMM 02/07 08:30只要開源過幾天就是白菜價

同系列文章

Re: [爆卦] 50美元訓練出媲美DeepSeek R1

```
 5 
```
kinda：李飛飛就是讓模型學習 - 考試技巧 1. 找已經上過課的學生教技巧：教 Qwen 32B 開源模型 2. 寫考古題：59,000題中挑1,000題 3. 不會就跳過：終止控制 4. 不要輕易作答：延長控制

其他人也閱讀了

PTT 熱門相關