Re: [問卦] DeepSeek成本這麽低的原因是啥?
Hi 可否問一下比較不專業的問題
1.
大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許
還有其它步驟)的這個作法
而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)
是嗎? (distill這邊省的 是讓大家也能用便宜硬體來跑)
2. 那麼我想單就distill這部份 OPENAI自已應該也能夠distill出規模較小
能力接近ChatGPT的模型 只是OPENAI要爭取大筆補助 又要線上收費 所以沒必要作出或是
發佈這個來搬石頭砸自已的腳
請問我上面的理解大致正確嗎? 謝謝
※ 引述《OnePiecePR (OPPR)》之銘言:
: 分兩個部分來說,
: ———————————————
: 第一個部分是澄清:
: DeepSeek 是微調別人做的基本模型。
: 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.
: 而 DeepSeek 花5、600萬美金做的是拿基本模型作微調。
: 台灣也花了大約100萬台幣(猜的)微調成taide 模型釋出.
: 某美國大約花279美金推出一個不錯的微調模型,sky .
: 還要說的,千萬不要這麼瞧不起微調啊!
: 問問中央大學的蔡老師就知道。
: ———————————————
: 第二部分才是 DeepSeek的省錢:
: 首先,他做模型訓練時有挑過一個步驟SFT),所以比較省錢;
: 基本上他在乎的是推理能力、所以跳過 SFT, 所以對話能力可能不會太強(?可能啦、自己
: 去測);
: 第二個步驟是因為他把模型”壓縮”(知識蒸餾應該也是一種壓縮法),
: 我們老百姓在用的時候因為用蒸餾模型的話,
: 會因為模型小、大家用的時候就又快又便宜。不要以為只有訓練貴,其實營運時很多人用,
: 費用也是驚人。
: 如果 DeepSeek 這次真的讓世人接受,那麼可能是中國在GPU 受限(雖然 DeepSeek可能也
: 有50000張GPU)後找到一種定位。
: 當然我們台灣應該也看見我們也是有可能發展模型的可能!
: 我就躍躍欲試~
: ———————————————
: ———————————————
: 以下偏技術解說:
: 1. 要從基本模型(比較像背書、像鸚鵡一直講話,而不太懂對話),到我們熟悉的 ChatGP
: T 大約要做一種指示訓練,指示訓練就是先教模型不要只會背書、要學會對話(第一個微調
: 出現了,叫 SFT), 另一個是學會不要用語言霸凌別人、要說好話(RLHF):
: DeepSeek 他比較不在乎太多對話流暢或者 ai 主權(照論文說的、實際要自己試試),他
: 要挑戰的是最近風頭上的推論能力的提升,所以他略過花錢的 SFT, 同時把 RLHF 改成真的
: 有用的 RL。然後就推力能力不錯了,又省錢。
: (其實後來又加回來 窄化版 SFT, 取名字叫 cool start dataset, 只作一點點訓練、一點
: 點資料,偏邏輯、推論格式的訓練,所以很省錢)
: 這樣子就大功告成、訓練好了。
: 訓練好了但是我們在問他的時候,因為模型大,也是浪費時間、算力、金錢,所以他就把原
: 來做好的模型用蒸餾法縮小。
: 這篇論文,算是簡單易懂,
: 根據政大蔡炎龍教授的指示,大家可以挑戰看看,不要網路上亂停。
: (其實論文裡有很多還要討論的事情,但是我猜想 DeepSeek 團隊微調能力與理論觀念很好
: 、都能避開點點點…)
: 蒸餾法很有趣,李宏毅老師的 yt 影片有教,可能是2018、19 的課程、大概是深度學習的
: 下一步的課程。
: 以上是肥宅今年 ptt 額度,大年初二一次用完。
--
換成中南部老闆會要求5萬內做出來
ptt 前面那些原因都可以略過,重點在
不是只有DS低成本 有一堆公司
段考前 去借班上好學生的筆記 你也能考得
不錯
早年從IBM大電腦變成手邊電子計算機?
論文中並沒有蒸餾CHATGPT的步驟
樓上說得對,論文是用一個小的語言模
型當基礎,去學大的Deepseek 的推理
資料。
整個論文用到"蒸餾"的部分
是已經訓練完R1後 去蒸餾R1
提取出六個小模型
而他們做蒸餾只是為了驗證RL的有效
可以說 蒸餾不是deepseek的主要重點
他們只是說 蒸餾能提升小模型效能
沒錯、重點不在蒸餾
原來如此
40
首PoDeepseek 橫空出世 應該讓大家都嚇了一跳 程式碼是開源的 有高手看的出來訓練成本這麼低的原因是啥嗎? --![[問卦] DeepSeek成本這麽低的原因是啥? [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/g10pOKob.png)
10
目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高
跟大麥克指數一樣 大麥克便宜 就是因為人工成本便宜 勞工便宜 其實花費金額根本沒啥好談的 Deepseek的好處其實不是便宜勞工![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://upload.wikimedia.org/wikipedia/commons/b/b4/Big_Mac_hamburger_-_Croatia.jpg)
18
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。 他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料, 再加上創新的Fine Tuning技巧去進行優化的, 並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。 的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法10
分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
6
沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)![[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂 [爆卦] 數發部次長造謠Deepseek成本不只550萬鎂](https://i.imgur.com/jmMt7gnb.jpeg)
爆
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/lunsvb2b.jpg)
57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。![Re: [討論] 其實Deepseek真的很厲害了 Re: [討論] 其實Deepseek真的很厲害了](https://imgcdn.cna.com.tw/www/WebPhotos/1024/20250129/1200x800_wmkn_324524490661_0.jpg)
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
9
Re: [請益] Deepseek v3 對台積電有影響嗎沒想到吹沒多久 當問DeepSeek-V3:"你是什麼模型" DeepSeek-V3竟然回答:"我是chatgpt"![Re: [請益] Deepseek v3 對台積電有影響嗎 Re: [請益] Deepseek v3 對台積電有影響嗎](https://i.imgur.com/wcgo1TCb.jpg)
6
[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt支那AI公司DeepSeek三天前推出DeepSeek-V3 該公司公布的性能可匹敵GPT-4o以及Claude-3.5-Sonnet DeepSeek-V3用2個月訓練2048個GPU只花588萬美元 遠低於GPT-4o約1億美元 粉紅五毛藉此嘲諷美帝封鎖高階晶片也無法阻止支那AI![[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt [爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt](https://i.imgur.com/Zo1PKXwb.jpg)
3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI