PTT推薦

Re: [問卦] DeepSeek成本這麽低的原因是啥?

看板Gossiping標題Re: [問卦] DeepSeek成本這麽低的原因是啥?作者
pttdocc
(Hi)
時間推噓 4 推:4 噓:0 →:14

Hi 可否問一下比較不專業的問題


1.
大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許

還有其它步驟)的這個作法


而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)

是嗎? (distill這邊省的 是讓大家也能用便宜硬體來跑)


2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小

能力接近ChatGPT的模型 只是OPENAI要爭取大筆補助 又要線上收費 所以沒必要作出或是

發佈這個來搬石頭砸自已的腳


請問我上面的理解大致正確嗎? 謝謝




※ 引述《OnePiecePR (OPPR)》之銘言:
: 分兩個部分來說,
: ———————————————
: 第一個部分是澄清:
: DeepSeek 是微調別人做的基本模型。
: 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.
: 而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
: 台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
: 某美國大約花279美金推出一個不錯的微調模型,sky .
: 還要說的,千萬不要這麼瞧不起微調啊!
: 問問中央大學的蔡老師就知道。
: ———————————————
: 第二部分才是 DeepSeek的省錢:
: 首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;
: 基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己
: 去測);
: 第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
: 我們老百姓在用的時候因為用蒸餾模型的話,
: 會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,
: 費用也是驚人。
: 如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也
: 有50000張GPU)後找到一種定位。
: 當然我們台灣應該也看見我們也是有可能發展模型的可能!
: 我就躍躍欲試~
: ———————————————
: ———————————————
: 以下偏技術解說:
: 1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的 ChatGP
: T 大約要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調
: 出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):
: DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他
: 要挑戰的是最近風頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的
: 有用的 RL。然後就推力能力不錯了,又省錢。
: (其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點
: 點資料,偏邏輯、推論格式的訓練,所以很省錢)
: 這樣子就大功告成、訓練好了。
: 訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原
: 來做好的模型用蒸餾法縮小。
: 這篇論文,算是簡單易懂,
: 根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂停。
: (其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好
: 、都能避開點點點…)
: 蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的
: 下一步的課程。
: 以上是肥宅今年 ptt 額度,大年初二一次用完。

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.10.158 (臺灣)
PTT 網址

t00012 01/30 17:33換成中南部老闆會要求5萬內做出來

kusomanfcu 01/30 17:34ptt 前面那些原因都可以略過,重點在

kusomanfcu 01/30 17:34不是只有DS低成本 有一堆公司

pooznn 01/30 17:46段考前 去借班上好學生的筆記 你也能考得

pooznn 01/30 17:46不錯

trasia 01/30 18:09早年從IBM大電腦變成手邊電子計算機?

henry1234562 01/30 18:50論文中並沒有蒸餾CHATGPT的步驟

OnePiecePR 01/30 18:52樓上說得對,論文是用一個小的語言模

OnePiecePR 01/30 18:52型當基礎,去學大的Deepseek 的推理

OnePiecePR 01/30 18:52資料。

henry1234562 01/30 19:00整個論文用到"蒸餾"的部分

henry1234562 01/30 19:00是已經訓練完R1後 去蒸餾R1

henry1234562 01/30 19:00提取出六個小模型

henry1234562 01/30 19:01而他們做蒸餾只是為了驗證RL的有效

henry1234562 01/30 19:02可以說 蒸餾不是deepseek的主要重點

henry1234562 01/30 19:02他們只是說 蒸餾能提升小模型效能

OnePiecePR 01/30 19:08沒錯、重點不在蒸餾

pttdocc 01/30 20:03原來如此