Re: [問卦] 自由時報笑了：Deepseek準確度超低

OnePiecePR 發表於 2025/1/31 下午12:46:52

看板Gossiping標題Re: [問卦] 自由時報笑了：Deepseek準確度超低作者

(OPPR)時間Jan 31 12:46:52 2025推噓 2 推:2 噓:0 →:5

※ 引述《oppo5566》之銘言：
: 一早起來就看到自由A3在嘲笑DeepSeek
:
: 資訊準確率超低只有17%
:
: 還有超過一半機率給沒有用的答案
:
: https://i.imgur.com/r066Tiw.jpeg

:
: 這樣比起來台灣跟數位部是不是又贏了

聽說資訊準確率超低，
那麼為什麼會震撼美國？

昨天猜想的可能原因，再貼一次。

整理一下：

分兩個部分來說，

———————————————
第一個部分是澄清：

DeepSeek 是微調別人做的基本模型。

比如臉書 meta 花數千萬美金或上億美金做出模型 llama.

而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣（猜的）微調成taide 模型釋出.
某美國大學花279美金推出一個不錯的微調模型，sky .

還要說的，千萬不要這麼瞧不起微調啊！
問問中央大學的蔡老師就知道。

———————————————

第二部分才是 DeepSeek的省錢：

首先，他做模型訓練時有挑過一個步驟SFT)，所以比較省錢；基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強（？可能啦、自己去測）；

第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法），
我們老百姓在用的時候因為用蒸餾模型的話，會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴，其實營運時很多人用，費用也是驚人。

如果 DeepSeek 這次真的讓世人接受，那麼可能是中國在GPU 受限（雖然 DeepSeek可能也有50000張GPU)後找到一種定位。

當然我們台灣應該也看見我們也是有可能發展模型的可能！
我就躍躍欲試～

———————————————
———————————————
以下偏技術解說：

1. 要從基本模型（比較像背書、像鸚鵡一直講話，而不太懂對話），到我們熟悉的ChatGPT還要做一種指示訓練，指示訓練就是先教模型不要只會背書、要學會對話（第一個微調出現了，叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話（RLHF):

DeepSeek 他比較不在乎太多對話流暢或者 ai 主權（照論文說的、實際要自己試試），他要挑戰的是最近浪頭上的推論能力的提升，所以他略過花錢的 SFT, 同時把 RLHF 改成真的有用的 RL。然後就推力能力不錯了，又省錢。
（其實後來又加回來窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點點資料，偏邏輯、推論格式的訓練，所以很省錢）

這樣子就大功告成、訓練好了。

訓練好了但是我們在問他的時候，因為模型大，也是浪費時間、算力、金錢，所以他就把原來做好的模型用蒸餾法縮小。

這篇論文，算是簡單易懂，
根據政大蔡炎龍教授的指示，大家可以挑戰看看，不要網路上亂聽。
（其實論文裡有很多還要討論的事情，但是我猜想 DeepSeek 團隊微調能力與理論觀念很好、都能避開點點點…）

蒸餾法很有趣，李宏毅老師的 yt 影片有教，可能是2018、19 的課程、大概是深度學習的下一步的課程。

回文補充：

知識蒸餾技術很普遍，
但知識蒸餾多少會損及準確率，
要看 OpenAI 自己的斟酌。

OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的，我是沒研究，但是大家看 OpenAI 總是看最強大的。
我們也總是覺得高智慧的回應是真理。

而 DS 是挑戰者、他猛攻推理能力，這是近期被指出通往 AGI 的可能技術，

DS 先準備好一個基本模型，是一個小參數量的基本模型，所以已經有語言能力，
然後他從大的 DS 模型自動產生有推理步驟的資料（人工篩選高品質資料），
把有語言能力的小模型去學習「大模型的推理問題的輸入輸出的資料」，然後小模型就有了推論能力。會不會學了推論能力損及語言能力，這個就要多一些實作累積經驗。

所以猛攻推理能力、能夠有所幫助，這樣前提下，是不是語言能力下降可能他不算在乎，他也可能就比較不看鄉民的測試或唐鳳的報告了。

其他補充：
DS 的 RL-only 與蒸餾的資料都是從大模型產生，不需要人提供。

當然資料的源頭總是已知答案的知識…這個就不多說了。

以上是論文寫的，其他部分會不會加入中國習慣的小動作，我是不知道。

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)

※ PTT 網址

推

Supasizeit 01/31 12:49拿誰的做fine tune啊

→

stratuss 01/31 12:52Taide 100萬？也太瞧不起政府花錢的能力

推