Re: [新聞] DeepSeek R1來了,追平o1!它現在不
這篇有幫大家看過paper了
基本上就是在chain of thought inference 推理的時候
reinforcement跟supervised比例的嘗試
數理問題RL比重高點
需要文法的文字問題supervised比重多一點
感覺是training手法的不同
跟model的運算架構沒啥關係
我是覺得有點過譽辣
RL天馬行空不見得效率會一直比較好
最後還是得靠堆算力
但是deepseek的成功背後代表的事是
人類的思考框架永遠比想像中的蠢=_=
找一個蠢蛋去supervised 只會得到一個蠢蛋
※ 引述《kobebrian》之銘言
: 先說 我完全不懂DS的算法 也不懂open ai的算法
: 但既然DS開源 那大家都能使用的情況下 未來AI迭代肯定加速
: 有人說我用1/50的算法就可以做到一樣的功能...是啊大家都可以用這套算法的情況下 那
: 還是得拼硬體
: 我用更強大的硬體可以推出更好的產品、服務 除非今天硬體本身的上限到了 沒辦法再有
: 更好的硬體來加速運算
: 不然這些大公司要怎麼贏過有同樣效率、算法的對手?我硬體先用到頂規 再來用軟體拼: 贏 還是有人覺得這些大公司挖金礦敢用次級鏟子?
: 就是那些小公司現在也「可能」有本錢下來市場玩 他們可能可以用次一等的鏟子來挖 推
: 出沒那麼好但便宜的產品 這會讓整個硬體的市場擴大 以前只能是最頂規的硬體跟AI有關
: 現在不是
: 而且也就是「可能」而已
: -----
: Sent from MeowPtt on my iPhone
----
Sent from BePTT on my iPhone 15 Pro
--
看股市反應成這樣就知道人類真的是白癡
沒關係 你要當沒那麼白痴的那個(不是說你不是白痴
也不是罵你白痴
不是人很蠢 是你的大腦比想像中更強
看完了台股完蛋
這種手法會有專項偏頗的情況, 應該不容易廣泛適用
爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片爆
[情報] AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3標題: AMD Instinct GPUs Power DeepSeek-V3: Revolutionizing AI Development with SGLang 來源: AMD's X (Twitter) 網址:57
[情報] Perplexity CEO:實驗性整合DeepSeek R1模標題: Perplexity CEO:實驗性整合DeepSeek R1模型 來源: Perplexity CEO Aravind Srinivas 網址:61
Re: [請益] 費半成份股全線崩盤 怎麼辦?DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance 以deepseek v3來說 600GB+ fp8 需要許多平行運算 這意味通訊瓶頸很重要 因為在切換專家時候 延遲會因此也跟者追加 而記憶體需求開銷也很大30
[情報] 馮驥:DeepSeek是國運級的科技成果大推DeepSeek 「黑悟空」製作人:國運級別的科技成果 中國大陸AI新創公司DeepSeek發表的DeepSeek-V3及DeepSeek-R1兩款大模型近期受到大量關 注,連《黑神話:悟空》的製作人馮驥也發文大力推薦,甚至稱DeepSeek可能是「國運級別 的科技成果」。14
Re: [新聞] DeepSeek R1來了,追平o1!它現在不但比OpenAI開放,也: : 心得/評論: : : 中國對美國的追趕真的到了窒息的程度。openai顯然不能叫openai,只能叫closeai了 : 再發酵幾天,我相信nvdia的股價就會受到打擊。高成本算力高歌猛進的時代即將終結6
Re: [問題] 現代 讓按鈕回歸;特斯拉 何時想通?特斯拉在美國已經FSD Supervised了 差不多就是我們現在在國道上用Lv2的感覺 只是人家是市區道路也都可以用 去美國玩,沒在美國開過車、對美國交通狀況不熟的,現在只要租台特斯拉, 目的地按下去啟動FSD Supervised就可以幫你帶到目的地。說實在還挺令人驚豔的。 這FSD只要持續精進,實體按鈕的必要性真的就不復存在了。7
Re: [問題] Tesla model Y該現在買還是再等改版?年底前應該有機會等到HW4 Model Y 明年底前應該有機會等到煥新版Model Y 特斯拉軟體維護的不錯。 HW3的車在美國已經可以市區Lv2 FSD Supervised了。 估計HW4在可預見的未來(5年內)應該是看不出功能上的差異 至於煥新板的差異 你可以先去展間參觀一下煥新板的Model 3評估是否要等4
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤算力愈強,模型愈強~ 就算deepseek 真的不用高階晶片就能訓練出說不弱於openAI o1 的模型, 那未來新的模型在有高階晶片的加持下, AI 不是會發展的更快、更難以想像嗎? AI 發展的更快,商用、消費用的領域愈多,對半導體的需求愈大,4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是
18
Re: [新聞] 去年12月總薪資平均近6.5萬刷新高 金飯15
[情報] 114年02月17日信用交易統計爆
[標的] 聯發科 空7
[心得] DeepReserch: 市值型 > 高股息10
Re: [請益] 台灣貿易順差超大 但為何台幣貶成這樣?7
[情報] 2032 新鋼 達注意標準 1月自結 0.0012
[情報] 00946 114/03/06 預估除息0.025元26
[情報] 3189景碩 113EPS 0.11(Q4 -0.55) 股利14
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 49
[心得] 券商app年度回顧25
[情報] 2942京站 獨董彭振聲 因個人生涯規劃辭任11
[情報] 5864 致和證 113年EPS 1.98 股利 0.4+0.87
[情報] 8028 昇陽半導體1月自結0.431
[情報] 114/02/17 八大公股銀行買賣超排行1
[情報] 0217 上市櫃股票週轉率排行3
Re: [新聞] 川普「對等關稅」預計4月2日上路衝擊歐日1
[情報] 0217 上市櫃外資投信買超金額排行