[問卦] Deepseek不就是說MoE便宜又好用而已?
安安 在AI產業的 MoE也不是什麼太陌生的題材
市面上好幾個MoE模型 加上最近的小模型趨勢
DeepSeek只是證明MoE加小模型 便宜又好用
整體還是在Transformer架構之下搭起來的 運算量還是在那邊
花更少的資源做一樣的事情 不就代表一樣的資源能做更多事?
AI即將更便宜更好用 大家不是應該要更爽才是 都不用工作了
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.202.165.104 (美國)
※ PTT 網址
→
把它理解成 通往AGI道路上的魔戒 很多人搶
→
著戴上它
推
他把人類的知識都學會了 ˇ更多資源
→
要學甚麼?
→
除非他能學會人類還不會的事QQ
→
其實現在問題是AGI沒限制好,有可能
→
脫離掌控變成ASI,超人智,所以AI發
→
展,反而是呼籲降低達成AGI的速度
→
AI 叛變!美智能無人機測試為達成任
→
務竟「殺死」操作員
→
你這種幹話就像說AI不就DNNDNN不就
→
MLE,一百年前人類就已經會了
推
對 而且gpt o1可能也是同一套方法 但
→
openai沒開源 無從證實
推
騾子
爆
Re: [請益] 費半成份股全線崩盤 怎麼辦?既然有人提推論,我就講看看訓練端 DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本 和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練 未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million 簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要61
Re: [請益] 費半成份股全線崩盤 怎麼辦?DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance 以deepseek v3來說 600GB+ fp8 需要許多平行運算 這意味通訊瓶頸很重要 因為在切換專家時候 延遲會因此也跟者追加 而記憶體需求開銷也很大2X
[爆卦] 杜奕瑾:我們Ailab用的資源更少!台灣Ai教父杜奕瑾FB發文了 回應DeepSeek的熱潮 簡單來說就是Ailabs也有自己開發的gpt 而且用的資源更少 DeepSeek很大一部分靠的是行銷成功42
Re: [新聞] DeepSeek傳偷用5萬顆輝達H100晶片如題 就是純來黑的 看了一下被採訪的人 美國亞裔不意外香蕉人 美國這些搞生成式ai的就是被看破手腳 尤其是那個奧特曼 就是來純搞錢的14
Re: [心得] DeepSeek對AI產業鏈影響懶人包先說結論 NV股票還是會漲啦 這十三年來在這大世代裡各個小世代AI進步頂峰幅度對應精確度 總結下來 因為這世代AI是用猜的 如要減少50%的錯誤 就要提升2的20次方算力 也就是Ai要提升一倍精確度 需要100萬倍的算力 這次DeepSeek只是讓這曲線抖動了一下 算是這個小世代AI算力最佳化的巔峰了11
Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子DeepSeek其實真正的創新在model的高效設計,其真正的關鍵在efficient MOE還有MLA設計 這其實是2024年初DeepSeek V2就發表的東西 R1是把這個高效model設計+O1推理模型的LLM+RL合併出來的效應 我覺得歐美廠商因為本錢大所以忽略了降本增效的飛輪效應,所以第二個推理模型反而是中 國公司出圈了,推理模型的Test Time Compute對模型效率的敏感性就非常強烈了,訓練中6
Re: [請益] Deepseek v3 對台積電有影響嗎我覺得評比指標什麼都是後話 使用體驗太差 你看看這樣怎麼稱霸世界呢? 你的進線參數與資料量就比別人少了,7
Re: [問卦] deepseek超低成本計算是真的嗎?論文有公布 現在就看各家機構要不要去做重複性的驗證 然後使用MOE的稀疏模型,成本一定很低 這無庸置疑 在專業領域一定表現的會比較好, (單一任務:寫程式、問數學等等)4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
爆
[爆卦] 曹興誠第二篇聲明爆
[問卦] 選出一個你這輩子玩過最好玩的單機遊戲40
[問卦] 挖曹興誠隱私等等30億不捐了 你真的OK?43
[問卦] 罵中國卻玩中國女人是啥洨?42
[問卦] 幹中國小三有比較台派的說法嗎?26
[問卦] 零關稅紐西蘭鮮乳來了!為何台灣鮮奶還28
[問卦] 機械鍵盤 線性軸怎麼紅的?35
[問卦] 黑熊學員眾現在在想什麼23
[問卦] 蔡康永有什麼代表作爆
[爆卦] 曹董小三公司助力中國夢 中共黨媒認證21
[問卦] 急!新北租房這個價格如何?16
[問卦] 獨角獸那麼叫:紐乳來了,為何台乳仍天價?爆
[爆卦] 曹董進來,我幫你解套。56
Re: [新聞] 快訊/竹聯幫主治喪委員75人名單曝光!18
[問卦] 漢寶泡麵能撐多久17
[問卦] 便宜的紐西蘭鮮乳去哪買17
[問卦] 職場上真的會有功高震主的事情嗎?12
[問卦] polo衫要怎麼穿的帥?28
[問卦] 鄧肯是歷史最強大前鋒嗎?16
[問卦] 永康街為何很多觀光客??16
[問卦] 明朝末年的飢荒到底有多嚴重?15
[問卦] 想要長肌肉 健身是唯一解嗎?2
[問卦] 阿公過世,長孫不回來?13
[問卦] 來一客 鮮蝦口味 為什麼能稱霸市場多年14
[問卦] 有無哪吒1-哪吒之魔童降世 也好看的八卦?12
[問卦] 冷氣團在哪?笑死10
Re: [問卦] 為什麼現在國小老師常叫學生去看 身心科?12
[問卦] 黎明最紅的歌是什麼??12
Re: [新聞] 曹興誠遭爆公開不雅照 林智群:監督老百10
[問卦] 板橋的0號屎徒,找到了嗎?