[問卦] 語言模型用蒸餾是不是要寫上純度?

Sidney0503 發表於 2025/2/8 下午9:06:52

看板Gossiping標題[問卦] 語言模型用蒸餾是不是要寫上純度?作者

Sidney0503

(Sidney0503)時間Feb 8 21:06:52 2025推噓 4 推:4 噓:0 →:1

PTT推薦

大家都說deepseek蒸餾gpt來的

廣義上來說 GPT也是蒸餾整個網路資料來的

然後李飛飛用50美金重現deepseek的論文算不算二次蒸餾三次蒸餾

那這樣以後語言模型是不是都要標註純度?

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 14.52.5.227 (韓國)

※ PTT 網址

→

Belanice 02/08 21:07大概87%

推

neo5277 02/08 21:16就是temp阿

推

Supasizeit 02/08 21:16我都改用發酵

推

g1254501 02/08 21:25二鍋頭60趴啦供參

推

cisyong 02/08 21:44二個75%是150%

其他人也閱讀了

PTT 熱門相關

44
Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據
比較好奇這段：儘管蒸餾是AI業界常見做法，但DeepSeek若利用蒸餾技術來打造自家模型，並與OpenAI競爭，將違反OpenAI服務條款，因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款，用戶不得「複製」任何 OpenAI的服務，或是「利用輸出結果，來開發與OpenAI競爭的模型」。各個ai 大語言模型不是都會互相參照比較和訓練嗎？我以為這是業界常識…
47
Re: [情報] 50美元訓練出媲美DeepSeek R1
好的 google 要不要把昨天財報上的說750億設備支出變成50美元支出？李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾
18
Re: [新聞] DeepSeek 遇大規模網路攻擊，暫時只支援
Musk贊同投資公司Atreides Management合夥人兼資訊長貝克（Gavin Baker）在X提到 DeepSeek的R1低成本來自在訓練和推理效率上，取得了真正的算法突破例如 FP8 訓練、MLA（機器學習加速）和多 token 預測。訓練過程中涉及大量的知識蒸餾（distillation）這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下，這項訓練幾乎不可能完成。
7
[問卦] ChatGPT o3新模型怎麼防蒸餾？
Deepseek公布了低成本蒸餾法能把現成的LLM模型以另一個模型蒸餾出來省去初期開發成本以極低的成本搶佔資本市場 o3新模型就面臨抉擇 1.開放API等著被模型各種蒸餾
6
Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據
這段一定很多人沒看懂。正確的說法是，蒸餾可以讓較小的模型（學生）在特定任務上得到比原本的小模型更好，近似於大模型（教師）的結果。近似，就不可能比教師模型更好，只會更差。另外由於OpenAI沒有開源，所以這種叫做黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質，那就一直蒸餾一直蒸餾蒸餾
6
Re: [問卦] DeepSeek成本這麽低的原因是啥？
沒有錯，成本除了 “訓練微調出模型”，還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本，也同時帶動本地假設的可能。所以我 Mac M2 Max，有 64GB ram，跑 DS 70B 速度還不錯，30B 完全舒服。
6
Re: [問卦] DeepSeek是真貨，版圖會不會大改？
Deepseek真正改變的是讓開源生態系注入了新的活水，過去半年其實大家都是被OpenAI的生態系越玩越死，新創很怕自己做出的服務馬上就被閉源的chatGPT直接取代，然後要做出服務還要付出大筆服務費，要自己搭還需要大量計算能力。但DeepSeek R1直接告訴你要讓語言模型有推理能力根本不需要真的做大，要訓練推理能力也不需要讓人去轉出人類的思考過程（TTT模式），直接拿好的基礎我們去蒸餾再去給他環
4
Re: [新聞] OpenAI：已掌握DeepSeek盜用模型證據
這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.
2
Re: [問卦] 自由時報笑了：Deepseek準確度超低
聽說資訊準確率超低，那麼為什麼會震撼美國？昨天猜想的可能原因，再貼一次。整理一下：分兩個部分來說，
1
Re: [新聞] 成本低廉中國AI初創DeepSeek震撼矽谷
前文恕刪 : 據報導，DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月，就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3，用了1萬6384片更強的H100 : 顯示卡，花了54天。DeepSeek的訓練效率提升了11倍。這比法很不公平