Re: [問卦] 有鄉民看過deepseek強在哪了嗎?
※ 引述《KanzakiHAria (神崎・H・アリア)》之銘言:
: ※ 引述《iPadProPlus (哀配之神)》之銘言:
: : 安安 欸 幹
: : 一直說中國deepseek AI很會算,可以節省98%設備支出
: : 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉?
: : 所以到底運算邏輯上差在哪?
: : 有鄉民看了嗎?
: : 有八卦嗎?
: 不是有paper和一堆yt在講了
: 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升
: 所以AI能力要變強 原本是要暴脹式的砸錢
: deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰
: 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了
: 類似以前alphago master要吃人類千年棋譜 到alphago zero不用棋譜自己來
: 所以省去大量成本
即便是這樣算力的需求還是向上吧
原本需要計算100次的東西新的模型只需要算1次
但人類肯定能找出100甚至10000倍的計算需求啊
就像當年電腦從1khz 到現在 5ghz且多核心以上
整天喊效能過剩,
但就是會有新的應用把多出來的效能用掉
手機不也是這樣嗎?
怎麼老黃的算力好像直接變成地攤貨一樣崩了呢?
往後不需要堆算力這件事反而更違反直覺吧
--
算力向上你要知道為什麼向上
類比的話,就像 CPU RISC 和 CISC 之爭
但目前ai的確仍有很多需要挖掘的地方 不覺得deepseek就完全不需要升級算力了
對ㄚ 所以現在景張的是米國的軟體業ㄚ
因為技術力一下就被追上ㄌ
軟體反而沒差好嗎? deepseek是開源的, 就算不開源deepseek並不存在什麼獨家護城河 其他人拿回去研究一下 換個思路下一代模型效果也相距不遠 為什麼只有老黃最慘, 因為大家好像覺得可能不需要軍備競賽了 又或者說Ai要堆到現實上非常好用的地步 可能不需要像之前那樣堆算力了
※ 編輯: winterson (106.1.116.137 臺灣), 01/28/2025 00:32:06如果不需要算力的話,那ds何必用h800?用更
更更低階的gpu不是更嚇人?
美國偷師中國這套軟體思維,再用h100來打,
還會打不過?
沒 軟體業會第一波被捲爆 因為一下就會滿滿
對岸廠商狂投入開發便宜的出來
另外老黃低階卡對岸還是可以用 好歹有賺
這種鳥畫面4090也搞不定 算力很謎阿
20
首Po安安 欸 幹 一直說中國deepseek AI很會算,可以節省98%設備支出 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉? 所以到底運算邏輯上差在哪? 有鄉民看了嗎?3
不是有paper和一堆yt在講了 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升 所以AI能力要變強 原本是要暴脹式的砸錢 deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了4
在領英上看到 講解的還行 看得懂就看吧 看不懂就算了 正文: 首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer: 1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程; 2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议
94
Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」老黃應該是有機會能繼續用黃家刀法 用高階價錢賣低階產物給中國 從美國的最大化利益角度來想 美國也會希望老黃賣次級的晶片給中國 這樣就某種程度能最大化阻滯中國發展 和弱化中國科技樹發展 比方說 中國最近的華為昇腾910B AI晶片號稱對標A100 已經賣給百度作為AI開發用途 如果說中國目前上面自製化晶片算力是10 那A100是30 H100是50 那老黃只要賣給中國晶片84
Re: [新聞] 台積電:AI需求噴發 但全球科技業復甦不AI跟5G的類比講真的有點勉強 同樣也跟2000年網路基建的狀況不太一樣 來看一下祖家大少怎麼講的 其實重點並不是AI66
[問卦] 黃仁勳:AI算力,耗能增加3倍..這電哪來?黃仁勳: NVIDIA 的加速計算技術實現了 100 倍的速度提升, 而功耗僅增加到原來的 3 倍, 成本則為原來的 1.5 倍。61
Re: [請益] 費半成份股全線崩盤 怎麼辦?DeepSeek這塊有幾個看法 Training端就等之後瓜出來再吃 在Inference這塊 因為受限於MoE 所有推論成本可以降下來 但需求變高的是用記憶空間 和各個node之間的通訊開銷 以及軟體上cpu/gpu的load balance 以deepseek v3來說 600GB+ fp8 需要許多平行運算 這意味通訊瓶頸很重要 因為在切換專家時候 延遲會因此也跟者追加 而記憶體需求開銷也很大51
Re: [新聞] 黃仁勳:晶片製造不一定得在台 中國市場卻再稍微增加補充一下 這篇講得沒錯 老黃的核心重點就是"算力" 他賣的鏟子就是高計算能力平台 因此跟計算資源扯上關係的題材都會是老黃炒作對象 元宇宙也好 挖礦這些題材都算是幫他促銷鏟子 這也是為何老黃每年會去CVPR(Vision Computing)/Siggraph(Graphics Render) /NeurIPS 到處穿黑皮衣亂走 去了解整個高計算技術趨勢23
Re: [閒聊] 傳Coreweave是Nvidia和Blackroc我有在follow coreweave 但是朝另外一個方向 Coreweave現在規劃就是死抱老黃和 微軟大腿 他提供的就是第三方租借算力 其他類似的公司有Amazon/Google/Lambda 然後Coreweave也有跟微軟簽約提供算力 老黃這陣子看得出來 他有在朝算力租借這邊佈局 在講這些玩家之前 先科普一下如果踏入AI產業 你大概會選擇三個方向其中一個7
[請益] 其實DeepSeek用了幾顆GPU根本不重要用GPU硬體加速AI運算這件事 本來就不是無限制使用, 有些人講到AI就只想到暴力運算 找最大質數...要靠AI某某模型花○○年 要是大家指望那種爛模型,14
Re: [閒聊] 有礦工偷跑3060算力 結果忘記馬序號 GG這位來自喬治亞的Youtuber:CryptoLeo 看起來完全不在意RTX3060序號露出 他又繼續更新了頻道 他新上傳RTX3060 12GB顯示卡 測試其他競爭幣(Altcoins)算力的影片4
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤算力愈強,模型愈強~ 就算deepseek 真的不用高階晶片就能訓練出說不弱於openAI o1 的模型, 那未來新的模型在有高階晶片的加持下, AI 不是會發展的更快、更難以想像嗎? AI 發展的更快,商用、消費用的領域愈多,對半導體的需求愈大,
爆
[爆卦] 曹興誠第二篇聲明爆
[問卦] 選出一個你這輩子玩過最好玩的單機遊戲40
[問卦] 挖曹興誠隱私等等30億不捐了 你真的OK?43
[問卦] 罵中國卻玩中國女人是啥洨?42
[問卦] 幹中國小三有比較台派的說法嗎?26
[問卦] 零關稅紐西蘭鮮乳來了!為何台灣鮮奶還28
[問卦] 機械鍵盤 線性軸怎麼紅的?35
[問卦] 黑熊學員眾現在在想什麼23
[問卦] 蔡康永有什麼代表作爆
[爆卦] 曹董小三公司助力中國夢 中共黨媒認證21
[問卦] 急!新北租房這個價格如何?16
[問卦] 獨角獸那麼叫:紐乳來了,為何台乳仍天價?爆
[爆卦] 曹董進來,我幫你解套。56
Re: [新聞] 快訊/竹聯幫主治喪委員75人名單曝光!18
[問卦] 漢寶泡麵能撐多久17
[問卦] 便宜的紐西蘭鮮乳去哪買17
[問卦] 職場上真的會有功高震主的事情嗎?12
[問卦] polo衫要怎麼穿的帥?28
[問卦] 鄧肯是歷史最強大前鋒嗎?16
[問卦] 永康街為何很多觀光客??16
[問卦] 明朝末年的飢荒到底有多嚴重?15
[問卦] 想要長肌肉 健身是唯一解嗎?2
[問卦] 阿公過世,長孫不回來?13
[問卦] 來一客 鮮蝦口味 為什麼能稱霸市場多年14
[問卦] 有無哪吒1-哪吒之魔童降世 也好看的八卦?12
[問卦] 冷氣團在哪?笑死10
Re: [問卦] 為什麼現在國小老師常叫學生去看 身心科?12
[問卦] 黎明最紅的歌是什麼??12
Re: [新聞] 曹興誠遭爆公開不雅照 林智群:監督老百10
[問卦] 板橋的0號屎徒,找到了嗎?