[問卦] 語言模型用蒸餾是不是要寫上純度?
大家都說deepseek蒸餾gpt來的
廣義上來說 GPT也是蒸餾整個網路資料來的
然後李飛飛用50美金重現deepseek的論文 算不算二次蒸餾三次蒸餾
那這樣以後語言模型是不是都要標註純度?
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 14.52.5.227 (韓國)
※ PTT 網址
→
大概87%
推
就是temp阿
推
我都改用發酵
推
二鍋頭60趴啦 供參
推
二個75%是150%
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
47
Re: [情報] 50美元訓練出媲美DeepSeek R1好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾![Re: [情報] 50美元訓練出媲美DeepSeek R1 Re: [情報] 50美元訓練出媲美DeepSeek R1](https://img.youtube.com/vi/3O7b2HZCXKM/mqdefault.jpg)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
7
[問卦] ChatGPT o3新模型怎麼防蒸餾?Deepseek公布了低成本蒸餾法 能把現成的LLM模型以另一個模型蒸餾出來 省去初期開發成本以極低的成本搶佔資本市場 o3新模型就面臨抉擇 1.開放API等著被模型各種蒸餾6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/uznnxpcb.jpeg)
6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。6
Re: [問卦] DeepSeek是真貨,版圖會不會大改?Deepseek真正改變的是讓開源生態系注入了新的活水,過去半年其實大家都是被OpenAI的生 態系越玩越死,新創很怕自己做出的服務馬上就被閉源的chatGPT直接取代,然後要做出服 務還要付出大筆服務費,要自己搭還需要大量計算能力。 但DeepSeek R1直接告訴你要讓語言模型有推理能力根本不需要真的做大,要訓練推理能力 也不需要讓人去轉出人類的思考過程(TTT模式),直接拿好的基礎我們去蒸餾再去給他環4
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://observer.com/wp-content/uploads/sites/2/2025/01/GettyImages-1540568234.jpg?quality=80)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平