PTT推薦

Re: [問卦] 自由時報笑了:Deepseek準確度超低

看板Gossiping標題Re: [問卦] 自由時報笑了:Deepseek準確度超低作者
OnePiecePR
(OPPR)
時間推噓 2 推:2 噓:0 →:5

※ 引述 《oppo5566》 之銘言:
: 一早起來就看到自由A3在嘲笑DeepSeek
:
: 資訊準確率超低 只有17%
:
: 還有超過一半機率給沒有用的答案
:
: https://i.imgur.com/r066Tiw.jpeg

圖 自由時報笑了:Deepseek準確度超低
:
: 這樣比起來 台灣跟數位部是不是又贏了

聽說資訊準確率超低,
那麼為什麼會震撼美國?

昨天猜想的可能原因,再貼一次。


整理一下:

分兩個部分來說,

———————————————
第一個部分是澄清:

DeepSeek 是微調別人做的基本模型。

比如臉書 meta 花數千萬美金或上億美金做出模型 llama.

而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
某美國大學花279美金推出一個不錯的微調模型,sky .

還要說的,千萬不要這麼瞧不起微調啊!
問問中央大學的蔡老師就知道。

———————————————

第二部分才是 DeepSeek的省錢:

首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己去測);

第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
我們老百姓在用的時候因為用蒸餾模型的話,會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,費用也是驚人。

如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也有50000張GPU)後找到一種定位。

當然我們台灣應該也看見我們也是有可能發展模型的可能!
我就躍躍欲試~

———————————————
———————————————
以下偏技術解說:

1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的ChatGPT還要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):

DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他要挑戰的是最近浪頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的有用的 RL。然後就推力能力不錯了,又省錢。
(其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點點資料,偏邏輯、推論格式的訓練,所以很省錢)

這樣子就大功告成、訓練好了。

訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原來做好的模型用蒸餾法縮小。

這篇論文,算是簡單易懂,
根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂聽。
(其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好、都能避開點點點…)

蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的下一步的課程。

回文補充:

知識蒸餾技術很普遍,
但知識蒸餾多少會損及準確率,
要看 OpenAI 自己的斟酌。

OpenAI 也是有一些便宜的模型在賣 api, 怎麼做的,我是沒研究,但是大家看 OpenAI 總是看最強大的。
我們也總是覺得高智慧的回應是真理。

而 DS 是挑戰者、他猛攻推理能力,這是近期被指出通往 AGI 的可能技術,

DS 先準備好一個基本模型,是一個小參數量的基本模型,所以已經有語言能力,
然後他從大的 DS 模型自動產生有推理步驟的資料(人工篩選高品質資料),
把有語言能力的小模型去學習 「大模型的推理問題的輸入輸出的資料」,然後小模型就有了推論能力。會不會學了推論能力損及語言能力,這個就要多一些實作累積經驗。

所以猛攻推理能力、能夠有所幫助,這樣前提下,是不是語言能力下降可能他不算在乎,他也可能就比較不看鄉民的測試或唐鳳的報告了。

其他補充:
DS 的 RL-only 與 蒸餾的資料都是從大模型產生,不需要人提供。

當然資料的源頭總是已知答案的知識…這個就不多說了。

以上是論文寫的,其他部分會不會加入中國習慣的小動作,我是不知道。

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.24.87.88 (臺灣)
PTT 網址

Supasizeit 01/31 12:49拿誰的做fine tune啊

stratuss 01/31 12:52Taide 100萬?也太瞧不起政府花錢的能力

cerberi 01/31 12:55

bluebluelan 01/31 12:58問題是 他可能拿o1 API來蒸餾671B

bluebluelan 01/31 12:59先不說openAI自己也是劣跡斑斑

bluebluelan 01/31 12:59拿商業API來做模型商業競爭 是不好看

hjklhandsome 01/31 13:28準確率大概綠霉100倍吧