Re: [情報] 50美元訓練出媲美DeepSeek R1
這位大大 你真的很喜歡批評別人耶
這篇示範的是synthetic dataset disillation概念
為何叫做是dislillation是因為用大模型的知識去創作出的數據集
還推說這是這篇作者自己捏造蒸留定義 學術圈沒人這樣做...
這樣很不好耶...這明明就是一個正統的學術圈常用詞
這篇最大用途不是跟R1比 因為這篇還沒有SFT+RL去做 當純只是去fine-tune
但這篇最大意義就是 開源了合成COT數據集 以及用wait這種時間換思想概念
證明推理是可以透過數據集去合成出來教會模型
還在推文說啥這不是distillation -_-...... 你連這篇要幹啥都不太理解
https://arxiv.org/abs/2410.02116
這篇最大意義就是 在推廣像是這類幫助了第三方複製R1 project
https://huggingface.co/blog/open-r1
現在第三方在徵求
Step 1: Replicate the R1-Distill models by distilling a high-quality
reasoning dataset from DeepSeek-R1.
透過這些合成Dataset 可以去更好探討如何用RL取代RLHF
才不是單純跟R1扳手腕 你可以看這個s1開源數據集幾個項目
https://github.com/simplescaling/s1/blob/0a6864fdece6029f2013aafcb4db3dc3889fbb31/eval/lm-evaluation-harness/lm_eval/tasks/okapi/arc_multilingual/README.md?plain=1#L9
說沒在看paper ......=_= 現在大家都在研究如何更好的合成數據集來提供智能
https://x.com/op7418/status/1884065603184681162 為了響應模型教模型概念
※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
: ※ 引述《LimYoHwan (gosu mage)》之銘言:
: : 標題:
: : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: : 來源:
: : Futu
: : 網址:
: : https://tinyurl.com/ydrtdbu8
: : 內文:
: : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: : ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: : Flash Thinking Experimental提煉出來的。
: : https://i.imgur.com/kFg9GjU.jpeg

: : 。
: : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
: : 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。: : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
: : ,甚至可以媲美 Reinforcement Learning(強化學習)。
: : OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好: : 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: : S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:: : 核心思想:
: : 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: : 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率: : !
: : 結果證明,這種方法比 OpenAI o1-preview 還要好!
: : 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
: : 然很強!
: : 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: : 論文下載
: : https://arxiv.org/pdf/2501.19393
: 連結或內文,完全是錯的。
: 根本是腦殘媒體在亂寫。與論文事實不符。
: 先說論文結論:
: 模型表現:
: 經過不斷的做實驗試錯,
: 終於從59000筆訓練資料中,
: 找到一組1000筆AI訓練資料,
: 可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。
: 其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。
: 成本:不到50美元。
: 也是只看 fine-tune 1000題,一次的成本。
: 而且,試了不知道幾次,
: 終於找到一次,
: 可以在部分考卷上贏一個很爛的模型。
: 媒體文章中,忽略不計的成本,至少包含:
: base模型訓練的成本(至少占成本99%)
: 研究人員不斷試錯找1000題的成本。
: 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。
: 其他錯誤資訊,媒體的內文寫:
: 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。
: 完全錯誤。原始論文寫:
: 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。
: 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。
: 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。
: 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調
: 結論:
: 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。
: 一堆外行人,連論文都不看,在造假新聞。
: 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。
--
爆
首Po標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:33
基本上這是一個完全由美國本土的大學團隊成員 研究的成果,李飛飛是從小就移民美國的美國 人,本身是美國國家工程學會院士,如果這個也 算捲的話應該是美國人自己也在卷AI科技而且 還比之前的DS更狠,就看之後能不能提供上傳47
好的 google 要不要把昨天財報上的說750億設備支出 變成50美元支出? 李飛飛能直接表明蒸餾Google Google 最好不知道還給你研究所蒸餾9
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完9
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset 透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務 而此時新模型能更好地學會思考 這篇文章列了好幾個synthetic dataset的樣板23
連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯,2
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現 包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到 這才是最奇怪的。 今日鼓點:大A乘風直上,就像哪吒2的票房 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言:
爆
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因爆
[情報] 微軟官方:DeepSeek R1 現已在 Azure 及 G標題: DeepSeek R1 is now available on Azure AI Foundry and GitHub DeepSeek R1 現已在 Azure AI Foundry 和 GitHub 上提供。 來源: 微軟 Azure 官方 Blog55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預14
[爆卦] 50美元訓練出媲美DeepSeek R1李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用5
Re: [爆卦] 50美元訓練出媲美DeepSeek R1李飛飛就是讓模型學習 - 考試技巧 1. 找已經上過課的學生教技巧:教 Qwen 32B 開源模型 2. 寫考古題:59,000題中挑1,000題 3. 不會就跳過:終止控制 4. 不要輕易作答:延長控制1
[討論] 所以可以開吹Deepseek了嗎?微軟Ai副總: DeepSeek R1 is now available in the model catalog on Azure AI Foundry and GitHub, joining a diverse portfolio of over 1,800 models, including frontier, open-source, industry-specific, and task-based AI models. As part of Azure AI Foundry, DeepSeek R1 is accessible on a trusted, scalable, and2
Re: [爆卦] 中央研究院詞庫小組大型語言模型阿肥外商碼農阿肥啦! 今天忙到剛剛才看到這篇,先說derek大大有點避重就輕的點, 大家都知道LLM就是一個機率模型,更正確來說應該是一個生成式模型,概念就是他從訓 練數據集當中去模仿數據源的分佈。 當然,我相信這絕對是中研院自己finetune的,也不是說只是拿別人模型出口接了openCC2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。
爆
Re: [心得] 小債蛙畢業了爆
Re: [新聞] 韓國央行行長:美國對各國施壓要求升值爆
Re: [新聞] 韓國央行行長:美國對各國施壓要求升值85
[情報] 0506 上市外資買賣超排行67
Re: [新聞] 韓國央行行長:美國對各國施壓要求升值73
Re: [請益] 00937該止損嗎?57
Re: [新聞] 韓國央行行長:美國對各國施壓要求升值46
[請益] 為何歌舞昇平不怕半導體關稅?爆
Re: [心得] 小債蛙畢業了爆
[請益] AI會不會也只是下一個元宇宙NFT?33
[情報] 1583 程泰 114年Q1 EPS -7.3988
[情報] 114年05月06日 三大法人買賣金額統計表15
Re: [新聞] 韓國央行行長:美國對各國施壓要求升值3X
[心得] 小債蛙畢業了22
[情報] 8044 網家 114年Q1: -0.7921
Re: [請益] 為何一堆人都想著債市要做價差?17
[標的] 3546 宇峻 多20
[情報] 0506 上市投信買賣超排行21
[情報] 0506 違約交割17
[請益] 「美元跌可以減少美負債」48
Re: [請益] AI會不會也只是下一個元宇宙NFT?24
[標的] 00712黑絲叫我多這個17
[請益] 美元對各國貶值是為了加強商品競爭力?17
Re: [請益] 「美元跌可以減少美負債」15
Re: [請益] 「美元跌可以減少美負債」6
[情報] 5434 崇越 114年Q1 EPS 4.9113
[請益] 央行干預匯率時的交易對手?14
Re: [標的] 00937B、00679B、00687B怎麼做才會斷頭?14
[情報] 2323 中環 處分廣達(益)13
[情報] 1234 黑松 114年Q1 EPS 0.61