Re: R: [請益] 為什麼中國越來越強？

LDPC 發表於 2025/2/1 上午10:27:33

看板Stock標題Re: R: [請益] 為什麼中國越來越強？作者

(Channel Coding)時間Feb 1 10:27:33 2025推噓79 推:79 噓:0 →:79

怎抹這邊突然變AI版 =_=

DeepSeek 有件事情幹得比矽谷好就是AI Backend 優化(這玩意就是需要懂架構
和軟體就是一個苦力枯燥活) 大體而言
在A100架構以前大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16
(浮點16進位)主因是用16進位去訓練精度不夠容易模型崩潰尤其用P100的fp16
去訓練LLM這類模型大多都會崩直到bf16這種新型的16進位出來這時候訓練成本
(等於同架構算力變兩倍) 直接下到一半在過去很少人在訓練用fp8(8位元)精度
去訓練模型因為先天認為就是模型不穩 (順帶一提在inference
把模型降到int8 是一個常見降成本做法但training就很難)
然後deepseek 這個做得很好他們重寫底層cuda優化 (寫ptx 直接優化硬體並列)
硬生生的把訓練pipeline寫出了一個fp8的版本這又讓算力直接變兩倍
(*1)
我找到一篇稍微講他們並列設計方式軟體優化整理
https://finance.sina.com.cn/roll/2025-01-01/doc-inecmssv2908917.shtml
該編直接破題捲工程

MoE 有一個最大挑戰就是通訊成本以及如何把通訊成本降下來 DeepSeek也是圍繞在
NVLink Load Balance (*2) 這也是圍繞在高throughput的NVLink 優化活
https://news.cnyes.com/news/id/5847731

*1和*2基本上就是圍繞NV卡Cuda底層的軟體優化活 QQ
這玩意不能無痛移植到其他架構會是完全不一樣的推倒重練活甚至硬體不支援無法複製https://blog.csdn.net/weixin_42082868/article/details/130158784

而MoE對VRAM要求很高說不需要HBM的 =_=......畢竟記憶體在LLM是一個重要參數
有很多算法是拿記憶空間換算力 (cache <-> 計算參考白算盤)

因為是MoE 所以意味者每個token產生只用了模型37B參數這意味者你的智能上限
就是37B參數的智能這也意味者現階段600B Dense 模型上限可以更高
(有點像你在思考一個問題瞬間時刻只用了腦容量10%跟腦容量100%)
這也是為何MoE在Fine-Tune 基於泛化不足難度會比Dense模型不穩

在Inference端受益於
1. KV Cache壓縮 ( Multi-head Latent Attention)
2. 37B參數運算量 per token
3. MLP (multi-token prediction) (參照Medusa這類paper)
每次不是一個個token產生而是一次產生兩個token (你也可以推廣到n顆預測
但n>2 token 每次預測失誤率會變高等於做白工)

所以產出token速度會造成同架構600B模型大概 10倍快然後搭配老黃B200
int8 算力https://36kr.com/p/2927059579722630 老黃硬體也可以受益這種低精度
搭配MoE 解放出能提供的更多人數上限 (Inference Capaciy是單次訪問算力x人數)

LLM現在最大門檻就是inference速度慢很多paper都在環繞1,2,3推廣
而deep seek就是把現階段最好的1,2,3搭起來搭AI Backend

key take away 通篇deepseek其實是把近年來所有經典算法圍繞在NV的cuda底層優化
所以要把這算法複製在其他平台會重新遇到一個底層優化的問題就像AMD底層優化
並不如cuda好而這次大概就是ai backend 碼農看到中國deekseek做得很好

個人建議如果沒NV卡手上有M1/M2/M3晶片可以嘗試把上面123玩玩看現在pytorch
有針對Mac GPU優化 (指令 device="mps" 如果你有NV卡那就不用多此一舉)
https://github.com/karpathy/minGPT

強烈建議手刻KV Cache ( https://github.com/Zefan-Cai/KVCache-Factory )
https://dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/
KV Cache 開發是現在LLM裡面的顯學之一
除了增加就業能力還可以幫助你股版吵架能力 @@/

--
以後薯條炸到一半你可以直接跟買漢堡客戶吵起LLM話題股版吵架吵起來!!!!!

現在你想進入OpenAI 刷AI Backend會比走AI research容易現在大廠都缺AI Backend

※ 引述《afflic (afflic)》之銘言：
: 給一些覺得中國很爛的人看看市場現在在擔心些什麼
: 艦長J快訊重要的突破要多寫一次
: 2025/1/31
: 總之，這幾天是一次很燒腦的過年假期，感覺比平常還要認真研讀資料，甚至大年初一晚: 上還有大陸券商辦專家論壇..... 這個市場實在太捲。
: 當然，花了這些精神做功課，就是要研究一下開年後的投資動作，究竟是新春大特賣趕快: 撿便宜、還是苗頭不太對腳底要抹油？很遺憾的，這幾天研究下來，個人目前對硬體的看: 法越來越偏向後者，但相關的AI應用卻可能加速發展。
: DS的論文重點以及它在演算法上的突破，網路上已經有很多人分享，我就不再贅述；直接: 講幾個觀察到的重點吧～
: 1. 還記得Apple為了推銷Apple Intelligence，將iPhone 全面升級到8GB以上嗎？這僅僅: 是為了跑一個3B 參數的小模型而已。現在，有人成功用一張 Nvidia RTX 6000 (48GB V: RAM) 就可以跑動 DS 671bn 參數的大模型，而且這個模型還開源可以直接下載。
: 這代表什麼意思？以後企業或個人要佈建AI，可能買一台具有高階顯卡的電腦就做的到。: 不用每個月花200USD訂閱OpenAI、不用CSP租賃昂貴的AI server & 網路..... 在地端佈: 署AI 變得簡單＆便宜許多。這兩天已經有看到朋友的公司開始研究把AI模型的佈建轉為: 在地端執行的可能性。
: 2 各大廠紛紛投入：短短幾天，可以看到微軟、AWS、NVIDIA 都開始提供DS R1 模型的服: 務。由於對硬體的要求的確不高，百萬token 輸出的價格只要2.19美元（作為對比： Ope: nAI的輸出價格爲60美元/百萬Token），價差接近30倍。
: NVIDIA 官方也有描述：在單個NVIDIA HGX H200系統上，完整版DeepSeek-R1 671B的處理: 速度可達3,872 Token/秒。僅需一個系統就可以完整運作DS R1 大模型。就算企業依然需: 要利用雲端來佈建AI，需要的系統＆價格也比之前簡化許多。
: 3 NV關鍵優勢不再？這兩年來，我們持續提到NV產品在大模型與高運算力方面的優勢，: 包括記憶體的使用、NVlink多卡串聯、Scale-up/out 的領先等等；在探討下一代Rubin或: 更後面的產品，討論的是一個機櫃做到NVL 144/288 、如何處理這麼大功耗的產品、系統: 架構該如何演進等等；重點不僅僅是“教主產品做的比別人好”，而是“不用教主的產品: 就根本無法訓練＆使用這些大的模型”。
: 忽然間，這個必要性被打了一個大問號。
: 進而延伸的問題：HBM、CoWoS等等原本為了在空間體積功耗等等限制下塞進最多算力的技: 術，是不是仍然必要？還是有許多便宜的替代品可以用？
: BTW，很多人喜歡把政治問題扯進來。對我來說，探討DS本身到底用了多少卡有意義嗎？: 沒有，重點是現在實際佈署R1的硬體需求就是極低；其次，它有沒有抄OpenAI? 應該有吧: ～不過OpenAI 的 GPTBoT 在網路上不顧版權的到處亂抓資料也不是一兩天的事情了～: 抓完還不開源勒。對投資而言，整個市場結構的變化，比這些枝微末節的小事重要多了。: 投資總有風險，本人過去績效不做未來獲利之保證。最近詐騙猖獗，本人不收會員、不用: 追蹤、不騙流量、不需粉絲、更不必按讚分享開啟小鈴鐺。快訊僅供好友交流之用，如果: 你與我看法不同，你肯定是對的千萬不要被我影響。

--

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)

※ PTT 網址

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:29:45 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:30:54

推

acidrain 02/01 10:30看起來像軟體業的工廠版本需要更多的作業員去改善

→

acidrain 02/01 10:30模型扯到人力成本歐美就貴所以東亞跟印度...

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:32:16 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:33:02

推

SRNOB 02/01 10:33抗中保台抵制就對了

→

SRNOB 02/01 10:34這篇有料

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:35:47

推

jeangodard 02/01 10:356 這週最有料的文

推

dongdong040502/01 10:38推有料但股板老害們會看不懂

→

loveadu 02/01 10:40所以我就說了，算力是算力，工具需要人去設計算法

→

loveadu 02/01 10:41有個電路板就喊老AI，難怪自己買美債

推

hamnett17th 02/01 10:41專業

推

TIPPK 02/01 10:43(美國)(美國)

推

Jeff1989 02/01 10:43感謝分享

推

curlymonkey 02/01 10:44專業文看不懂

推

yyyou 02/01 10:46謝謝大爺

推

rayisgreat 02/01 10:46專業文><

推

cablate 02/01 10:46推，但股版看不懂，只會跟你說趕快賣NV GG買中國A

→

cablate 02/01 10:46股

推

jeangodard 02/01 10:47所以根本上 DS做得最好的就是去優化cuda的效能

→

jeangodard 02/01 10:47讓nv的gpu能達到更強的能力嗎

推

cablate 02/01 10:48是的，DS目前最有價值的部分就是優化算法

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:49:32

推

tomdavis 02/01 10:48後面就是照抄把1 2通通移植到其他模型上

推

FICA 02/01 10:50推專業

→

tomdavis 02/01 10:50這個工作沒辦法給AI做XD code只能由碼農來寫XD

推

zaqimon 02/01 10:51所以AI無法自己優化自己底層的code嗎!?

→

zaqimon 02/01 10:52還是DeepSeek員工也都用AI在寫程式!?

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:52:37

推

Windtears 02/01 10:52https://darioamodei.com/on-deepseek-and-export-c

→

Windtears 02/01 10:52ontrols

推

cablate 02/01 10:52當算法改進，接著卷的一樣是設備，當初各種大神優

→

cablate 02/01 10:52化各種程式演算法在強化基礎建設，你看現在有因為

→

cablate 02/01 10:52演算法而將硬體設備停留在10年前嗎

推

zaqimon 02/01 10:53還是與其花時間問AI 還不如自己寫程式比較快

→

tsukirit 02/01 10:53是沒有，但硬體不見得值那種溢價

推

cablate 02/01 10:54優化底層code你也要提供人類想法，AI沒有你各位想

→

cablate 02/01 10:54的那麼聰明，會問為什麼AI不能優化AI就是還不夠清

→

cablate 02/01 10:54楚AI怎麼運作的，再次提醒現在AI還不是AGIㄛ

→

tsukirit 02/01 10:55網路到處都是WIFI，4G 5G 超普及，但硬體也沒多賺

→

cablate 02/01 10:55溢價兩個字很曖昧，怎樣才算溢價，現在回頭看當初

→

cablate 02/01 10:55各種顯卡，其實也不值那個價格，不是嗎XD

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:57:30

推

axia 02/01 11:05請問ai backend有哪些相關技能可以入門呢

推

AudiA4Avant 02/01 11:05那個底層優化不能移植不同GPU不是？

→

LDPC 02/01 11:06當你node跟node間通訊速度低於一個值啥優化都沒用

→

LDPC 02/01 11:07nvda還有transformer硬體加速 amd沒有

推

lpmybig 02/01 11:09LDai救命老黃跪太慢了

→

LDPC 02/01 11:10樓上一起當韭菜吧 @@ a08說龍山寺還有位子

推

cablate 02/01 11:10韭菜，一起，強大！

推

jiansu 02/01 11:14推專業優化算法減少硬體成本是持續永久的以前的

→

jiansu 02/01 11:14硬體也有機會受惠這次很多舊硬體拿來跑本地Ai 拼

→

jiansu 02/01 11:14算力就要the more you buy the more you save 這次

→

jiansu 02/01 11:14成本降低遠大於預期會造成預期獲利方式改變要修

→

jiansu 02/01 11:14正產業估值和發展模式算力硬體還是剛需但可能會

→

jiansu 02/01 11:14變化另外人有優化硬體想法 Ai有機會幫忙實作XD

推

spa41260 02/01 11:15算力需求當然是會越來越多，但會不會像現在溢價搶

→

spa41260 02/01 11:15貨就是個問題了

推

cablate 02/01 11:18總結，晶片/顯卡長期利多，除非AI技術有超大突破，

→

cablate 02/01 11:18大家發現不需要這兩個玩意也能訓練出大模型

推

WTF55665566 02/01 11:22說白了Deepseek就不是革命性創新算是演算法革新

→

WTF55665566 02/01 11:22讓AI運算更有效率類似遊戲的優化做的好這樣

→

WTF55665566 02/01 11:23但這種東西大廠要拆解學習也很快等大廠大團隊跟的

→

WTF55665566 02/01 11:23差不多了最後還是回到算力需求跟加大算力軍備競賽

→

WTF55665566 02/01 11:23

推

Skydier 02/01 11:25笑了一個前幾天還在說DS是假的咖小還在評論ㄚ

推

black205 02/01 11:25奇怪不是說套皮嗎怎麼又開始硬拗了

推

etset 02/01 11:25認真學炸薯條了

→

black205 02/01 11:25突然又在裝業內不是創新只是革新笑死人

→

black205 02/01 11:26進步毒瘤

→

Skydier 02/01 11:26不愧是政嘿貨色水準可見一斑

推

pideo 02/01 11:27結論就是美豬就他媽的一群懶鬼啊，只想整天爽，然

→

pideo 02/01 11:27後拿高薪啊

→

pideo 02/01 11:28隔壁5毛是捲到啥都能降成本

QQ 這個是環境問題美國的tiktok部門同是中國人已經卷輸中國本土tiktok部門現在中國人除非沒地方去也不太會去美國本土tiktok 因為要對打中國本土tiktok

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:30:21

推

epephanylo 02/01 11:29期待這波討論熱潮過去會有人整理各種懶人包 XD

推

skullno2 02/01 11:32這種文章我只能叫AI看完再教我惹

→

hicoy 02/01 11:32降成本剛好是中國的強項花錢大手大腳的歐美人學不

→

hicoy 02/01 11:32來的

→

WTF55665566 02/01 11:34偷別人的主架構跟套皮優化又不衝突？更甚者本來就

→

WTF55665566 02/01 11:34是只花優化成本其餘靠別人才可能壓低成本啊

→

hicoy 02/01 11:34然後一堆人還在糾結硬體相關的沒看到美股錢都塞到

→

hicoy 02/01 11:34軟體應用去了

→

WTF55665566 02/01 11:34美國人也不是學不來而是全球化產業分工後他們把這

→

WTF55665566 02/01 11:34塊都切給海外盟友來做了日韓台都是

→

WTF55665566 02/01 11:37說轉向軟體股的去年就在喊了結果也是雷聲大雨點小

→

WTF55665566 02/01 11:37 軟體目前獲利模式還是不夠穩定 Chatgpt也還得扛龐

→

WTF55665566 02/01 11:37大成本

推

stocktonty 02/01 11:37就像要特定的CPU跟板子跟電壓才能超頻的意思

→

stocktonty 02/01 11:38用更高的CPU或是別的板子反而超不到那個時脈

推

hpk89 02/01 11:41卷軟體人力的話不見得中國就吃香，因為後面還有一

→

hpk89 02/01 11:41個人更多的印度虎視眈眈

推

iamaq18c 02/01 11:48趕快推否則會被人發現看不懂XDDD

推

panda816 02/01 11:50中國內卷出來的東西還能吃到全球華語市場而且使用

→

panda816 02/01 11:50習慣上更貼近華語圈的人

推

HenryLin123 02/01 11:52你要去哪間炸薯條，我跟你買可以幫我鏟爆嗎？

→

panda816 02/01 11:52印度？我覺得文化差別太大了他們研發的產品自己用

→

panda816 02/01 11:52是沒問題推廣到外國就不看好了

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:55:39

推

ppuuppu 02/01 11:55別去麥當當了，在美國賣地瓜/甘梅薯條會不會賣爆阿

→

ppuuppu 02/01 11:55？

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:57:33

推

HenryLin123 02/01 12:04地瓜薯條沒看過有人賣，但是你地瓜進價可能也會很

→

HenryLin123 02/01 12:04貴。

→

ksjr 02/01 12:08sweet potato fries不算嗎?

推

q8977452 02/01 12:08還特地左轉看是否為stock 板...

→

q8977452 02/01 12:09臺灣就沒軟體呀...強的都去外商囉

推

ctes940008 02/01 12:13專業，不過微軟這兩天是發生什麼事.....

推

ga278057 02/01 12:14太專業了

推

ga278057 02/01 12:17懶包中國軟體做得很好起飛了,灣硬體遲早沒未來

推

DPP48 02/01 12:25專業推

推

DPP48 02/01 12:28趕快把演算法拿出來看

→

ken85 02/01 12:34最終還是卡HBM~~~~

推

OEC100 02/01 12:36居然是真正的業內文，反正政治腦看不懂

→

sid3 02/01 12:42覺得ds很好可以搬去中國

推

LiamTiger 02/01 12:46https://i.imgur.com/p2YTcbg.png 硬體不重要? XD

推

ejnfu 02/01 12:47反正我開美國科技業大老大部分都說不會因此減少高階

→

ejnfu 02/01 12:47晶片的投資，我反正是信了

算力就像是電力永遠不會嫌少老黃無限多真不行我就當社畜到70歲 @@/

推

jimjim95135702/01 12:48推感謝分享

→

Mytsb2421 02/01 12:48中小企業能跑的動就夠了，不用花大錢去買NV GG吧？

推

sean667cd 02/01 12:52推 LD大，LD大有一卡車的薯條可以炸來吃！

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 12:58:03

推

qweaaazzz 02/01 12:58推專業分享

→

qweaaazzz 02/01 12:59我打算賣了奢侈品車子房子睡公園星期一繼續抄底老黃

→

qweaaazzz 02/01 13:00等到老黃股價200 就去美國找LD大當鄰居

→

qweaaazzz 02/01 13:00大給供厚摁厚~~

推

qweaaazzz 02/01 13:06堅定信仰老黃 LD大不愧4代理教主嗚嗚

推

mdkn35 02/01 13:12如果訓練VRAM需求變少了的話那下禮拜群聯大概…

推

a731977 02/01 13:26

推

jhnny 02/01 13:30真的專業

推

jerrywei24 02/01 13:36補充說一下，deepseek的做法不只是讓gpu需求下降，

→

jerrywei24 02/01 13:36還順便讓中國的顯卡廠商看到競爭機會，這才是真正的

→

jerrywei24 02/01 13:36問題

推

jamesho8743 02/01 13:37股板就中低階講太深沒屁用別人又聽不懂你對不對

→

jamesho8743 02/01 13:37別人也不知道結果不是瞎扯就是不明覺厲而已

推

yesyesyesyes02/01 13:42難得股版看到有料的，前幾天一堆無腦酸的id 集體裝

→

yesyesyesyes02/01 13:42死中

推

genius0716 02/01 13:59本週最優質文章

推

kylecheng25 02/01 13:59白話文：把複雜的模型變得簡單有效率，但還是要用GP

→

kylecheng25 02/01 13:59U去推，這樣正確嗎？（DS、NV或贏）

推

sdbb 02/01 14:0799nvdl

→

iamacomic 02/01 14:30真不愧是100鎂當1塊台幣的矽谷大老...

推

bala045 02/01 14:31有料

推

cablate 02/01 14:34此時不認為應該糾結硬體的到底都什麼傻逼

→

PureAnSimple02/01 14:38懂技術面比懂技術重要

→

aspirev3 02/01 14:47碼農還是得刷題演算法還是重要

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 14:49:51 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 14:50:59

推

create8 02/01 14:53感謝分享

推

gogogogo333302/01 15:01有料推

推

winth 02/01 15:01算力即電力，那是不是電力也可以投資？

推

grayeric 02/01 15:45是不是也要學會煎漢堡排這樣才不會被AI淘汰

推

jeromeshih 02/01 16:39推

推

stcr3011 02/01 16:47感謝分享

推

coware 02/01 17:54確實

→

bnn 02/01 18:19那照理來說NV現在應該先Train PTX優化的AI

推

aegis43210 02/01 18:57西臺灣太早在模型剪枝，目前對西方國家來說不是立即

→

aegis43210 02/01 18:57性的威脅

推

aaron68032 02/01 19:20推難得股板有料的文

推

adamyang200002/01 20:36祇是恢復正常的中國看看世界歷史

推

kmoy 02/01 21:10這篇感覺好屌

→

labell 02/02 07:54販毒到美國的拿下半個歐洲跟巴拿馬

推

richaad 02/02 14:02很多說什麼DS用PTX繞過CUDA的，真的很低能，PTX就是

→

richaad 02/02 14:02CUDA的一部分啊，講什麼繞不饒真的傻眼

→

richaad 02/02 14:03而且你要用PTX去優化榨乾NV的性能，這實力絕不可能

→

richaad 02/02 14:03說做到就能做到，DS強就是強在這裡

推

cablate 02/02 16:22繞什麼啊，CUDA是重點技術還繞，他們到底在說什麼x

→

cablate 02/02 16:22D

推

richaad 02/02 16:30網路上就一堆白癡、低能自媒體說DS繞過CUDA ，真不

→

richaad 02/02 16:30懂到底哪裡繞過去了

同系列文章

R: [請益] 為什麼中國越來越強？

其他人也閱讀了

PTT 熱門相關