PTT推薦

Re: R: [請益] 為什麼中國越來越強?

看板Stock標題Re: R: [請益] 為什麼中國越來越強?作者
LDPC
(Channel Coding)
時間推噓79 推:79 噓:0 →:79

怎抹這邊突然變AI版 =_=

DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構
和軟體 就是一個苦力枯燥活) 大體而言
在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16
(浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp16
去訓練LLM這類模型 大多都會崩 直到bf16這種新型的16進位出來 這時候訓練成本
(等於同架構算力變兩倍) 直接下到一半 在過去很少人在訓練用fp8(8位元)精度
去訓練模型 因為先天認為就是模型不穩 (順帶一提 在inference
把模型降到int8 是一個常見降成本做法 但training就很難)
然後deepseek 這個做得很好 他們重寫底層cuda優化 (寫ptx 直接優化硬體並列)
硬生生的把訓練pipeline寫出了一個fp8的版本 這又讓算力直接變兩倍
(*1)
我找到一篇稍微講他們並列設計方式軟體優化整理
https://finance.sina.com.cn/roll/2025-01-01/doc-inecmssv2908917.shtml
該編直接破題 捲工程

MoE 有一個最大挑戰就是 通訊成本 以及如何把通訊成本降下來 DeepSeek也是圍繞在
NVLink Load Balance (*2) 這也是圍繞在高throughput的NVLink 優化活
https://news.cnyes.com/news/id/5847731

*1和*2基本上就是圍繞NV卡Cuda底層的軟體優化活 QQ
這玩意不能無痛移植到其他架構 會是完全不一樣的推倒重練活 甚至硬體不支援無法複製https://blog.csdn.net/weixin_42082868/article/details/130158784


而MoE對VRAM要求很高 說不需要HBM的 =_=......畢竟記憶體在LLM是一個重要參數
有很多算法是拿記憶空間換算力 (cache <-> 計算 參考白算盤)

因為是MoE 所以意味者每個token產生 只用了模型37B參數 這意味者 你的智能上限
就是37B參數的智能 這也意味者現階段600B Dense 模型 上限可以更高
(有點像你在思考一個問題瞬間時刻 只用了腦容量10%跟 腦容量100%)
這也是為何MoE在Fine-Tune 基於泛化不足 難度會比Dense模型不穩

在Inference端 受益於
1. KV Cache壓縮 ( Multi-head Latent Attention)
2. 37B參數運算量 per token
3. MLP (multi-token prediction) (參照Medusa這類paper)
每次不是一個個token產生 而是一次產生兩個token (你也可以推廣到n顆預測
但n>2 token 每次預測 失誤率會變高 等於做白工)

所以產出token速度會造成同架構600B模型大概 10倍快 然後搭配老黃B200
int8 算力https://36kr.com/p/2927059579722630 老黃硬體也可以受益這種低精度
搭配MoE 解放出能提供的更多人數上限 (Inference Capaciy是單次訪問算力x人數)


LLM現在最大門檻就是inference速度慢 很多paper都在環繞1,2,3推廣
而deep seek就是把現階段最好的1,2,3搭起來 搭AI Backend

key take away 通篇deepseek其實是把近年來所有經典算法圍繞在NV的cuda底層優化
所以要把這算法複製在其他平台 會重新遇到一個底層優化的問題 就像AMD底層優化
並不如cuda好 而這次大概就是ai backend 碼農 看到中國deekseek做得很好


個人建議 如果沒NV卡 手上有M1/M2/M3晶片 可以嘗試把上面123玩玩看 現在pytorch
有針對Mac GPU優化 (指令 device="mps" 如果你有NV卡那就不用多此一舉)
https://github.com/karpathy/minGPT

強烈建議手刻KV Cache ( https://github.com/Zefan-Cai/KVCache-Factory )
https://dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/
KV Cache 開發是現在LLM裡面的顯學之一
除了增加就業能力 還可以幫助你股版吵架能力 @@/

--
以後薯條炸到一半 你可以直接跟買漢堡客戶吵起LLM話題 股版吵架吵起來!!!!!

現在你想進入OpenAI 刷AI Backend會比走AI research容易 現在大廠都缺AI Backend











※ 引述《afflic (afflic)》之銘言:
: 給一些覺得中國很爛的人看看市場現在在擔心些什麼
: 艦長J快訊 重要的突破要多寫一次
: 2025/1/31
: 總之,這幾天是一次很燒腦的過年假期,感覺比平常還要認真研讀資料,甚至大年初一晚: 上還有大陸券商辦專家論壇..... 這個市場實在太捲。
: 當然,花了這些精神做功課,就是要研究一下開年後的投資動作,究竟是新春大特賣趕快: 撿便宜、還是苗頭不太對腳底要抹油?很遺憾的,這幾天研究下來,個人目前對硬體的看: 法越來越偏向後者,但相關的AI應用卻可能加速發展。
: DS的論文重點以及它在演算法上的突破,網路上已經有很多人分享,我就不再贅述;直接: 講幾個觀察到的重點吧~
: 1. 還記得Apple為了推銷Apple Intelligence,將iPhone 全面升級到8GB以上嗎?這僅僅: 是為了跑一個3B 參數的小模型而已。 現在,有人成功用一張 Nvidia RTX 6000 (48GB V: RAM) 就可以跑動 DS 671bn 參數的大模型,而且這個模型還開源可以直接下載。
: 這代表什麼意思?以後企業或個人要佈建AI,可能買一台具有高階顯卡的電腦就做的到。: 不用每個月花200USD訂閱OpenAI、不用CSP租賃昂貴的AI server & 網路..... 在地端佈: 署AI 變得簡單&便宜許多。這兩天已經有看到朋友的公司開始研究把AI模型的佈建轉為: 在地端執行的可能性。
: 2 各大廠紛紛投入:短短幾天,可以看到微軟、AWS、NVIDIA 都開始提供DS R1 模型的服: 務。由於對硬體的要求的確不高,百萬token 輸出的價格只要2.19美元(作為對比: Ope: nAI的輸出價格爲60美元/百萬Token),價差接近30倍。
: NVIDIA 官方也有描述:在單個NVIDIA HGX H200系統上,完整版DeepSeek-R1 671B的處理: 速度可達3,872 Token/秒。僅需一個系統就可以完整運作DS R1 大模型。就算企業依然需: 要利用雲端來佈建AI,需要的系統&價格也比之前簡化許多。
: 3 NV關鍵優勢不再? 這兩年來,我們持續提到NV產品在大模型與高運算力方面的優勢,: 包括記憶體的使用、NVlink多卡串聯、Scale-up/out 的領先等等;在探討下一代Rubin或: 更後面的產品,討論的是一個機櫃做到NVL 144/288 、如何處理這麼大功耗的產品、系統: 架構該如何演進等等;重點不僅僅是“教主產品做的比別人好”,而是“不用教主的產品: 就根本無法訓練&使用這些大的模型”。
: 忽然間,這個必要性被打了一個大問號。
: 進而延伸的問題:HBM、CoWoS等等原本為了在空間體積功耗等等限制下塞進最多算力的技: 術,是不是仍然必要?還是有許多便宜的替代品可以用?
: BTW,很多人喜歡把政治問題扯進來。對我來說,探討DS本身到底用了多少卡有意義嗎?: 沒有,重點是現在實際佈署R1的硬體需求就是極低;其次,它有沒有抄OpenAI? 應該有吧: ~ 不過OpenAI 的 GPTBoT 在網路上不顧版權的到處亂抓資料也不是一兩天的事情了~: 抓完還不開源勒。對投資而言,整個市場結構的變化,比這些枝微末節的小事重要多了。: 投資總有風險,本人過去績效不做未來獲利之保證。最近詐騙猖獗,本人不收會員、不用: 追蹤、不騙流量、不需粉絲、更不必按讚分享開啟小鈴鐺。快訊僅供好友交流之用,如果: 你與我看法不同,你肯定是對的千萬不要被我影響。

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
PTT 網址
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:29:45 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:30:54

acidrain 02/01 10:30看起來像軟體業的工廠版本 需要更多的作業員去改善

acidrain 02/01 10:30模型 扯到人力成本歐美就貴 所以東亞跟印度...

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:32:16 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:33:02

SRNOB 02/01 10:33抗中保台 抵制就對了

SRNOB 02/01 10:34這篇有料

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:35:47

jeangodard 02/01 10:356 這週最有料的文

dongdong040502/01 10:38推有料 但股板老害們會看不懂

loveadu 02/01 10:40所以我就說了,算力是算力,工具需要人去設計算法

loveadu 02/01 10:41有個電路板就喊老AI,難怪自己買美債

hamnett17th 02/01 10:41專業

TIPPK 02/01 10:43(美國)(美國)

Jeff1989 02/01 10:43感謝分享

curlymonkey 02/01 10:44專業文 看不懂

yyyou 02/01 10:46謝謝大爺

rayisgreat 02/01 10:46專業文><

cablate 02/01 10:46推,但股版看不懂,只會跟你說趕快賣NV GG買中國A

cablate 02/01 10:46

jeangodard 02/01 10:47所以根本上 DS做得最好的就是去優化cuda的效能

jeangodard 02/01 10:47讓nv的gpu能達到更強的能力嗎

cablate 02/01 10:48是的,DS目前最有價值的部分就是優化算法

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:49:32

tomdavis 02/01 10:48後面就是照抄 把1 2通通移植到其他模型上

FICA 02/01 10:50推專業

tomdavis 02/01 10:50這個工作沒辦法給AI做XD code只能由碼農來寫XD

zaqimon 02/01 10:51所以AI無法自己優化自己底層的code嗎!?

zaqimon 02/01 10:52還是DeepSeek員工也都用AI在寫程式!?

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:52:37

Windtears 02/01 10:52ontrols

cablate 02/01 10:52當算法改進,接著卷的一樣是設備,當初各種大神優

cablate 02/01 10:52化各種程式演算法在強化基礎建設,你看現在有因為

cablate 02/01 10:52演算法而將硬體設備停留在10年前嗎

zaqimon 02/01 10:53還是與其花時間問AI 還不如自己寫程式比較快

tsukirit 02/01 10:53是沒有,但硬體不見得值那種溢價

cablate 02/01 10:54優化底層code你也要提供人類想法,AI沒有你各位想

cablate 02/01 10:54的那麼聰明,會問為什麼AI不能優化AI就是還不夠清

cablate 02/01 10:54楚AI怎麼運作的,再次提醒現在AI還不是AGIㄛ

tsukirit 02/01 10:55網路到處都是WIFI,4G 5G 超普及,但硬體也沒多賺

cablate 02/01 10:55溢價兩個字很曖昧,怎樣才算溢價,現在回頭看當初

cablate 02/01 10:55各種顯卡,其實也不值那個價格,不是嗎XD

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:57:30

axia 02/01 11:05請問ai backend有哪些相關技能可以入門呢

AudiA4Avant 02/01 11:05那個底層優化不能移植不同GPU不是?

LDPC 02/01 11:06當你node跟node間通訊速度低於一個值 啥優化都沒用

LDPC 02/01 11:07nvda還有transformer硬體加速 amd沒有

lpmybig 02/01 11:09LDai救命 老黃跪太慢了

LDPC 02/01 11:10樓上一起當韭菜吧 @@ a08說龍山寺還有位子

cablate 02/01 11:10韭菜,一起,強大!

jiansu 02/01 11:14推 專業 優化算法減少硬體成本是持續永久的 以前的

jiansu 02/01 11:14硬體也有機會受惠 這次很多舊硬體拿來跑本地Ai 拼

jiansu 02/01 11:14算力就要the more you buy the more you save 這次

jiansu 02/01 11:14成本降低遠大於預期 會造成預期獲利方式改變 要修

jiansu 02/01 11:14正產業估值和發展模式 算力硬體還是剛需 但可能會

jiansu 02/01 11:14變化 另外人有優化硬體想法 Ai有機會幫忙實作XD

spa41260 02/01 11:15算力需求當然是會越來越多,但會不會像現在溢價搶

spa41260 02/01 11:15貨就是個問題了

cablate 02/01 11:18總結,晶片/顯卡長期利多,除非AI技術有超大突破,

cablate 02/01 11:18大家發現不需要這兩個玩意也能訓練出大模型

WTF55665566 02/01 11:22說白了Deepseek就不是革命性創新 算是演算法革新

WTF55665566 02/01 11:22讓AI運算更有效率 類似遊戲的優化做的好這樣

WTF55665566 02/01 11:23但這種東西大廠要拆解學習也很快 等大廠大團隊跟的

WTF55665566 02/01 11:23差不多了 最後還是回到算力需求跟加大算力軍備競賽

WTF55665566 02/01 11:23

Skydier 02/01 11:25笑了 一個前幾天還在說DS是假的咖小還在評論ㄚ

black205 02/01 11:25奇怪 不是說套皮嗎 怎麼又開始硬拗了

etset 02/01 11:25認真學炸薯條了

black205 02/01 11:25突然又在裝業內 不是創新只是革新 笑死人

black205 02/01 11:26進步毒瘤

Skydier 02/01 11:26不愧是政嘿貨色 水準可見一斑

pideo 02/01 11:27結論就是美豬就他媽的一群懶鬼啊,只想整天爽,然

pideo 02/01 11:27後拿高薪啊

pideo 02/01 11:28隔壁5毛是捲到啥都能降成本

QQ 這個是環境問題 美國的tiktok部門 同是中國人 已經卷輸中國本土tiktok部門 現在中國人除非沒地方去 也不太會去美國本土tiktok 因為要對打中國本土tiktok

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:30:21

epephanylo 02/01 11:29期待這波討論熱潮過去 會有人整理各種懶人包 XD

skullno2 02/01 11:32這種文章我只能叫AI看完再教我惹

hicoy 02/01 11:32降成本剛好是中國的強項 花錢大手大腳的歐美人學不

hicoy 02/01 11:32來的

WTF55665566 02/01 11:34偷別人的主架構跟套皮優化又不衝突?更甚者本來就

WTF55665566 02/01 11:34是只花優化成本其餘靠別人才可能壓低成本啊

hicoy 02/01 11:34然後一堆人還在糾結硬體相關的 沒看到美股錢都塞到

hicoy 02/01 11:34軟體應用去了

WTF55665566 02/01 11:34美國人也不是學不來 而是全球化產業分工後他們把這

WTF55665566 02/01 11:34塊都切給海外盟友來做了 日韓台都是

WTF55665566 02/01 11:37說轉向軟體股的去年就在喊了 結果也是雷聲大雨點小

WTF55665566 02/01 11:37 軟體目前獲利模式還是不夠穩定 Chatgpt也還得扛龐

WTF55665566 02/01 11:37大成本

stocktonty 02/01 11:37就像要特定的CPU跟板子跟電壓才能超頻的意思

stocktonty 02/01 11:38用更高的CPU或是別的板子反而超不到那個時脈

hpk89 02/01 11:41卷軟體人力的話不見得中國就吃香,因為後面還有一

hpk89 02/01 11:41個人更多的印度虎視眈眈

iamaq18c 02/01 11:48趕快推 否則會被人發現看不懂XDDD

panda816 02/01 11:50中國內卷出來的東西還能吃到全球華語市場 而且使用

panda816 02/01 11:50習慣上更貼近華語圈的人

HenryLin123 02/01 11:52你要去哪間炸薯條,我跟你買可以幫我鏟爆嗎?

panda816 02/01 11:52印度?我覺得文化差別太大了 他們研發的產品自己用

panda816 02/01 11:52是沒問題 推廣到外國就不看好了

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:55:39

ppuuppu 02/01 11:55別去麥當當了,在美國賣地瓜/甘梅薯條會不會賣爆阿

ppuuppu 02/01 11:55

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:57:33

HenryLin123 02/01 12:04地瓜薯條沒看過有人賣,但是你地瓜進價可能也會很

HenryLin123 02/01 12:04貴。

ksjr 02/01 12:08sweet potato fries不算嗎?

q8977452 02/01 12:08還特地左轉 看是否為stock 板...

q8977452 02/01 12:09臺灣就沒軟體呀...強的都去外商囉

ctes940008 02/01 12:13專業,不過微軟這兩天是發生什麼事.....

ga278057 02/01 12:14太專業了

ga278057 02/01 12:17懶包中國軟體做得很好起飛了,灣硬體遲早沒未來

DPP48 02/01 12:25專業推

DPP48 02/01 12:28趕快把演算法拿出來看

ken85 02/01 12:34最終還是卡HBM~~~~

OEC100 02/01 12:36居然是真正的業內文,反正政治腦看不懂

sid3 02/01 12:42覺得ds很好可以搬去中國

LiamTiger 02/01 12:46https://i.imgur.com/p2YTcbg.png 硬體不重要? XD

圖 R: [請益] 為什麼中國越來越強?

ejnfu 02/01 12:47反正我開美國科技業大老大部分都說不會因此減少高階

ejnfu 02/01 12:47晶片的投資,我反正是信了

算力就像是電力 永遠不會嫌少 老黃無限多 真不行我就當社畜到70歲 @@/

jimjim95135702/01 12:48推 感謝分享

Mytsb2421 02/01 12:48中小企業能跑的動就夠了,不用花大錢去買NV GG吧?

sean667cd 02/01 12:52推 LD大,LD大有一卡車的薯條可以炸來吃!

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 12:58:03

qweaaazzz 02/01 12:58推 專業分享

qweaaazzz 02/01 12:59我打算賣了奢侈品車子房子睡公園星期一繼續抄底老黃

qweaaazzz 02/01 13:00等到老黃股價200 就去美國找LD大當鄰居

qweaaazzz 02/01 13:00大給供厚摁厚~~

qweaaazzz 02/01 13:06堅定信仰老黃 LD大不愧4代理教主 嗚嗚

mdkn35 02/01 13:12如果訓練VRAM需求變少了的話 那下禮拜群聯大概…

a731977 02/01 13:26

jhnny 02/01 13:30真的專業

jerrywei24 02/01 13:36補充說一下,deepseek的做法不只是讓gpu需求下降,

jerrywei24 02/01 13:36還順便讓中國的顯卡廠商看到競爭機會,這才是真正的

jerrywei24 02/01 13:36問題

jamesho8743 02/01 13:37股板就中低階 講太深沒屁用別人又聽不懂 你對不對

jamesho8743 02/01 13:37別人也不知道 結果不是瞎扯就是不明覺厲而已

yesyesyesyes02/01 13:42難得股版看到有料的,前幾天一堆無腦酸的id 集體裝

yesyesyesyes02/01 13:42死中

genius0716 02/01 13:59本週最優質文章

kylecheng25 02/01 13:59白話文:把複雜的模型變得簡單有效率,但還是要用GP

kylecheng25 02/01 13:59U去推,這樣正確嗎?(DS、NV或贏)

sdbb 02/01 14:0799nvdl

iamacomic 02/01 14:30真不愧是100鎂當1塊台幣的矽谷大老...

bala045 02/01 14:31有料

cablate 02/01 14:34此時不認為應該糾結硬體的到底都什麼傻逼

PureAnSimple02/01 14:38懂技術面比懂技術重要

aspirev3 02/01 14:47碼農還是得刷題 演算法還是重要

※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 14:49:51 ※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 14:50:59

create8 02/01 14:53感謝分享

gogogogo333302/01 15:01有料推

winth 02/01 15:01算力即電力,那是不是電力也可以投資?

grayeric 02/01 15:45是不是也要學會煎漢堡排 這樣才不會被AI淘汰

jeromeshih 02/01 16:39

stcr3011 02/01 16:47感謝分享

coware 02/01 17:54確實

bnn 02/01 18:19那照理來說NV現在應該先Train PTX優化的AI

aegis43210 02/01 18:57西臺灣太早在模型剪枝,目前對西方國家來說不是立即

aegis43210 02/01 18:57性的威脅

aaron68032 02/01 19:20推 難得股板有料的文

adamyang200002/01 20:36祇是恢復正常的中國 看看世界歷史

kmoy 02/01 21:10這篇感覺好屌

labell 02/02 07:54販毒到美國的拿下半個歐洲跟巴拿馬

richaad 02/02 14:02很多說什麼DS用PTX繞過CUDA的,真的很低能,PTX就是

richaad 02/02 14:02CUDA的一部分啊,講什麼繞不饒真的傻眼

richaad 02/02 14:03而且你要用PTX去優化榨乾NV的性能,這實力絕不可能

richaad 02/02 14:03說做到就能做到,DS強就是強在這裡

cablate 02/02 16:22繞什麼啊,CUDA是重點技術還繞,他們到底在說什麼x

cablate 02/02 16:22D

richaad 02/02 16:30網路上就一堆白癡、低能自媒體說DS繞過CUDA ,真不

richaad 02/02 16:30懂到底哪裡繞過去了