Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSee

KanzakiHAria 發表於 2025/1/29 下午4:52:14

看板Tech_Job標題Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSee作者

KanzakiHAria

(神崎・H・アリア)時間Jan 29 16:52:14 2025推噓 7 推:10 噓:3 →:28

PTT推薦

建議先去看LATS 比較好理解什麼叫方法論

簡單說R1是一套"如何讓LLM可以做深度思考"的方法論

原本要讓LLM做深度思考之前的做法一律都是COT

比如把每次LLM的輸入輸出當作一個節點

把多個節點做評分最終選擇整條鏈評分最高的項目即MCTS概念

這就像是alphago那樣每次棋步後面都要估算後面幾十步對於這步的總評分(勝率)

LATS就是用LangGraph去實現MCTS的COT 這是方法論所以可以套用任何LLM

你替換任何LLM LATS都能提升輸出成果

GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質

並非直接讓AI去隨意生成許多條節點再自我評分而是人工先標註什麼是好推論

因此人工撰寫教科書等級的推論就是o1高成本最主要的因素

(這也是CloseAI藏起來的主因這個很貴不能給其他人看到XD)

就像alphago master需要挖出所有頂尖對局棋譜然後數位化

R1則是捨棄了節點拆步驟思維直接讓LLM去隨意探索可能方式

在這個情況下R1反而做出了各種有創意的推論方式

就像是alphago zero 自行探索反而下出自己一套邏輯

如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事

實驗室復現R1是指拿一個LLM 做這個方法論看可以拿到AI怎麼做推論過程

復現的結論也高度一致使用越優秀的LLM當作基底可以拿到更好的推論過程

所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣)

※ PTT 網址

推

tr920 01/29 17:02Openapi 都跳出來質疑有distill 痕

→

tr920 01/29 17:02跡了，你回那麼嗆小心被打臉啊

噓

quartics 01/29 17:07你說的跟本不是什麼新技術，也跟di

→

quartics 01/29 17:07stilled 不衝突

馬上就飛一隻出來了不是什麼新技術那openai google meta怎麼不先做(挖鼻

噓

whizz 01/29 17:19 不然這樣啦 deepseek開直播訓練

→

whizz 01/29 17:19 用2000塊 H800訓練來看看啊

才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了

推

tr920 01/29 17:34可以用30鎂就復現，那DS花550萬鎂

→

tr920 01/29 17:34幹嘛XDD！！

一個是先人研究出方法一個只是照用別人的方法你會說你高中就學會牛頓高斯想幾十年的東西所以牛頓高斯在浪費人生?

推

tr920 01/29 17:39以你的邏輯，R1是用人家砸大錢訓練

→

tr920 01/29 17:39出來的LLM來前進，那些砸大錢的公

→

tr920 01/29 17:39司在浪費人生？

"可以用30鎂就復現，那DS花550萬鎂幹嘛XDD！" 這句話是你說的又不是我說的我現在一整個黑人問號

推

tr920 01/29 17:43一句話啦，你敢保證Deepseek沒有用

→

tr920 01/29 17:43Distill技術？如果不敢保證，就把

→

tr920 01/29 17:43隨便罵人青鳥字眼吞回去

對不起讓你誤會了我絕對沒有說你是青鳥

推

master32 01/29 18:14我是覺得盡量不要一開始就把人打入

→

master32 01/29 18:14某一族群,科技板不該這樣

推

lusifa2007 01/29 18:34政治立場帶入單純技術討論碩士用

→

lusifa2007 01/29 18:34雞腿換的？

https://i.imgur.com/2BDUqa7.png

如果要像這樣"純技術討論" 我還是繼續用雞腿吧

推

straggler7 01/29 18:55純技術討論? 我信你個鬼!

→

aria0520 01/29 19:20但我也不是耶XD 單純就事論事

→

aria0520 01/29 19:21看我以往推文就知道我不是XD

抱歉我不該說你是青鳥

推

ctw01 01/29 19:26這樣受益良多感謝，另外想詢問因為

→

ctw01 01/29 19:26deepseek 似乎沒有公開他們這套方

→

ctw01 01/29 19:26法論是對哪個LLM模型，現在openai

→

ctw01 01/29 19:26質疑distill 是質疑他們使用的LLM

→

ctw01 01/29 19:26對chatgpt distill然後再用這套方

→

ctw01 01/29 19:26法論嗎？

這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD

→

ctw01 01/29 19:27因為本身不是做NLP相關的，以前也

→

ctw01 01/29 19:27沒接觸多少ai研究，如果問了蠢問題

→

ctw01 01/29 19:27敬請見諒

LLM終於來到了zero的時代我對這點是蠻興奮的

※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13

→

BoXeX 01/29 20:19反而覺得distill還好那些模型

→

BoXeX 01/29 20:20在訓練時也沒少盜用別人著作權文章

→

lavign 01/29 20:32LATS也是用MCTS，只是評分方式改成

→

lavign 01/29 20:32用LLM自己的機率函式？

自己把生出來的subtree再丟給LLM自己評分擇優不一定是打分數只要能選較好的路徑當然衍生方式就很多要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD 或者專門訓練一個評分系統發下一篇博士生要論文生論文就是這樣做

※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12

推

tanby 01/29 22:33知識蒸餾要有模型 OpenAI沒有公開

→

tanby 01/29 22:33模型 DS頂多用OpenAI模型去標注數

→

tanby 01/29 22:33據

推

janeration 01/30 00:33沒有公開不代表DS拿不到啊

噓

pig2014 01/30 18:01反對你的人就說是青鳥是三小，反民

→

pig2014 01/30 18:01進黨也不要反到這麼弱智操，很丟返

→

pig2014 01/30 18:01民進黨派的臉

只會噓文的ID 花這麼久才找到這麼小的噓點

※ 編輯: KanzakiHAria (36.231.97.33 臺灣), 01/30/2025 18:42:03

同系列文章

Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSee

```
 8 
```
sxy67230：呃，這新聞是哪個平行時空新聞，當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了，而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。一堆知名的框架也開始嘗試復刻開源版的R1 Code，我覺得R1幾個比較可行的思路就是改用

其他人也閱讀了

PTT 熱門相關