[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣
剛看了DeepSeek R1原始文件
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y.
(2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning. arXiv preprint arXiv:2501.12948.
看完結論就是
人家ChatGPT走啥路你就跟著走 修正與增進一些演算法效率
就媒體吹成一種全新中國人AI?
不就一個餵食中文資料庫 靠部分監督冷啟動改善語言邏輯的半人智慧
R1效能只跟OpenAI-o1-1217差不多
演算法上看不到明顯跳躍式進步
靠大模型餵食資料增進準確率跟速度,就被媒體吹成幾十倍效率?
以下用NootbookLM讀出的時間軸給妳們參考
早期:大型語言模型(LLMs)快速發展,朝向通用人工智慧(AGI)邁進。
後訓練(post-training)被視為提升模型效能的重要環節,特別是在推理任務方面。
OpenAI 的 o1 系列模型首先透過增加「思維鏈」(Chain-of-Thought, CoT)推理過程的長度來提升效能。
研究社群探索各種提升推理能力的方法,包括基於過程的獎勵模型、強化學習以及搜尋演算法。
DeepSeek-R1-Zero 的發展:DeepSeek-AI 團隊使用 DeepSeek-V3-Base 作為基礎模型。團隊採用群組相對策略優化(GRPO)作為強化學習框架。
他們直接對基礎模型應用強化學習(RL),而沒有使用監督式微調(SFT)作為預備步驟。
DeepSeek-R1-Zero 在強化學習過程中自然地發展出許多強大且有趣的推理行為。
在數千個 RL 步驟之後,DeepSeek-R1-Zero 在推理基準測試中表現優異。例如,在
AIME 2024 上,pass@1 分數從 15.6% 提升到 71.0%,若使用多數決投票,分數更提升
至 86.7%,可與 OpenAI-o1-0912 的表現相媲美。
DeepSeek-R1-Zero 展現出自我驗證、反思和生成長 CoT 的能力,是研究社群的一大進展。然而,DeepSeek-R1-Zero 面臨可讀性差和語言混用的問題。
DeepSeek-R1 的發展:為了處理 DeepSeek-R1-Zero 的問題並進一步提升推理效能,
DeepSeek-AI 團隊引入了 DeepSeek-R1。
DeepSeek-R1 結合了多階段訓練和「冷啟動」資料。
首先,團隊收集數千筆冷啟動資料來微調 DeepSeek-V3-Base 模型。
接著,像 DeepSeek-R1-Zero 一樣,執行以推理為導向的強化學習。
在 RL 過程接近收斂時,透過在 RL 檢查點上使用拒絕取樣(rejection sampling)建立新的 SFT 資料,並結合 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督式資料。然後重新訓練 DeepSeek-V3-Base 模型。
使用新資料微調後,該檢查點會經歷額外的強化學習過程,並考慮所有情境的提示。
最終成果 DeepSeek-R1 在推理任務上的表現與 OpenAI-o1-1217 相當。
模型蒸餾:DeepSeek-AI 團隊進一步探索將 DeepSeek-R1 的能力蒸餾到更小的模型中。他們使用 Qwen2.5-32B 作為基礎模型,發現直接從 DeepSeek-R1 蒸餾的效果比在它上面應用 RL 更好。這表示較大模型發現的推理模式對於提升推理能力至關重要。
DeepSeek-AI 開源了蒸餾後的 Qwen 和 Llama 系列模型。
其中,蒸餾後的 14B 模型大幅超越最先進的開源 QwQ-32B-Preview,而蒸餾後的 32B
和 70B 模型在密集模型中創下了推理基準測試的新紀錄。
評估:
DeepSeek-R1 在 AIME 2024 上達到 79.8% 的 pass@1 分數,略微超越 OpenAI-o1-1217。
在 MATH-500 上達到 97.3% 的高分,與 OpenAI-o1-1217 的表現相當,並大幅超越其他模型。
DeepSeek-R1 在程式碼競賽任務中展現了專家級別的能力,在 Codeforces 上獲得
2,029 Elo 評分,超越了 96.3% 的參賽者。
DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等知識基準測試上表現出色,明顯超越 DeepSeek-V3。
DeepSeek-R1 在創意寫作、一般問答、編輯、摘要等各種任務中表現出色。
在AlpacaEval 2.0 上達到 87.6% 的長度控制獲勝率,在 Are-naHard 上達到 92.3% 的獲勝率,展現其處理非考試導向查詢的能力。
未來方向:DeepSeek-AI 團隊計劃進一步研究 DeepSeek-R1 在通用能力(如函數調用、多回合對話)、語言混合、提示工程和軟體工程任務上的改進。
--
游泳比賽也是一樣啊,每個人都做一樣的事情
就像鴻蒙一樣 嘻嘻
,為什麼大家都要看?
先抄襲 後超越 誰不是這樣呢
美國有能力從0到1 但中國更擅長1到100
成本是別人的30/1
這麼簡單你怎不作?
追著你後面跑 成本少你9成..不可怕嗎
壓低成本是最屌的事情
宣傳炒股發大財 懂?
任何行業都一樣
成本上跳躍式進步你沒看到阿
原神也是抄的 但是人家賺爛了 笑死
你跟美股說阿 嘻嘻
重點是不用高階晶片,一般人會用到
的功能都有
它的最大問題在於成本極小化 你美國衝前面
站在巨人的肩膀,能突破晶片封鎖,大幅
提升效能,就足以令人佩服
投入的超高成本 ds可以馬上複製成本1/10
歐美的AI服務公司燒個10次都無法回本
只能倒閉
ChatGPT O1要付費,Deepseek R1免
修正1/30
費,請問美股是在跌什麼
成果比較重要
試了一下,本地它比llama反應快多了
大概就是優化吧,就像晶圓製造不是
GG開創的,但GG持續優化並在這個過
程降低成本壓低價格,所以amd要拆出
格羅芳德,intel也被製造部分拖垮
台灣人對GG也是很自豪甚至現在整天
臭intel(i皇也確實欠臭)
這篇文大家都會po但為啥你po的比別人快
要不你仿DS優化訓練一下 DPP會幫你造成
神
這麼簡單 怎不換你震撼老美一下
打打看64天安門
去跟華爾街講阿
你台灣連抄襲都不會..對岸連六待機都抄出
來了 你台灣整天只會炒台積電股票與詐騙
他的重點是成本
看到神貼切的比喻 O牌超跑要價500萬美金
最高時速500公里 D牌陽春跑最高時速480
公里但只要50萬美金 你覺得哪牌好?
會怕喔
八卦五毛好氣喔
成果不一樣就是不一樣,別再鴕鳥了
青鳥進化成鴕鳥,看了真讓人難過
爆
Re: [請益] 費半成份股全線崩盤 怎麼辦?既然有人提推論,我就講看看訓練端 DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本 和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練 未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million 簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要![Re: [請益] 費半成份股全線崩盤 怎麼辦? Re: [請益] 費半成份股全線崩盤 怎麼辦?](https://i.imgur.com/ZrjivY5b.jpeg)
57
[情報] Perplexity CEO:實驗性整合DeepSeek R1模標題: Perplexity CEO:實驗性整合DeepSeek R1模型 來源: Perplexity CEO Aravind Srinivas 網址:![[情報] Perplexity CEO:實驗性整合DeepSeek R1模 [情報] Perplexity CEO:實驗性整合DeepSeek R1模](https://i.imgur.com/qRQi9ZVb.png)
45
[爆卦] Openai:GPT o1超越人類理工博士OpenAI今天發布經過強化學習訓練的新型大語言模型o1 擁有執行複雜推理的能力 這就是傳說中的草莓模型 o1在回答前會進行深入思考並產生內部推理鏈![[爆卦] Openai:GPT o1超越人類理工博士 [爆卦] Openai:GPT o1超越人類理工博士](https://i.imgur.com/4AZglM0b.png)
38
[討論] OpenAI GPT o1模型上禮拜OpenAI發布經過強化學習訓練的新型語言模型o1 宣稱模型有更強大的思考能力 o1在回答之前會深入思考產生內部的推理練 結果就是o1模型在各個人類頂尖領域獲得相當好的成績![[討論] OpenAI GPT o1模型 [討論] OpenAI GPT o1模型](https://static-alpha.wallstcn.com/wscn/_static/share.png)
30
[情報] 馮驥:DeepSeek是國運級的科技成果大推DeepSeek 「黑悟空」製作人:國運級別的科技成果 中國大陸AI新創公司DeepSeek發表的DeepSeek-V3及DeepSeek-R1兩款大模型近期受到大量關 注,連《黑神話:悟空》的製作人馮驥也發文大力推薦,甚至稱DeepSeek可能是「國運級別 的科技成果」。![[情報] 馮驥:DeepSeek是國運級的科技成果 [情報] 馮驥:DeepSeek是國運級的科技成果](https://cdn2.ettoday.net/images/7808/e7808891.jpg)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
8
[問卦] 如何利用deepseek開源模型 建構台灣AI聽說 deepseek-R1 是目前開源AI模型第一名 我有一個大膽的想法 既然這個模型是開源的 我們可以使用這個模型來建構台灣的 openAI 擺脫對美國AI大廠的依賴 是不是很聰明啊?5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?2
Re: [問卦] ChatGPT問世,臺灣的AI大師在想什麼?阿肥外商碼農阿肥啦! 當前LLM像chatGPT即使問世,依舊還是有很多前沿問題沒解決,模型即使透過Instructio ns 由人工引導學習,還是很難達到真正的在線學習,人腦卻是可以時時重塑世界模型, 而且當前很多新研究都發現人腦耗電非常低但新皮質效能卻很高,而且LLM在很多層面即 使優於人腦,但是他卻缺少部分的世界模型。1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平