[情報] DeepSeek繞過CUDA 自己優化底層編程語言

jackliao1990 發表於 2025/1/29 下午7:55:49

看板Tech_Job標題[情報] DeepSeek繞過CUDA 自己優化底層編程語言作者

jackliao1990

(j)時間Jan 29 19:55:49 2025推噓16 推:25 噓:9 →:106

關於DeepSeek的優化改進
許多人沒注意到的是:
DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化

在輝達的PTX語言實際編譯流程中
CUDA代碼首先被編譯為PTX代碼
PTX代碼再被編譯為目標GPU架構的機器碼（SASS,Streaming ASSembler）
CUDA起到了提供高級編程接口和工具鏈的作用
可簡化開發者的工作
而PTX作為中間層充當高級語言和底層硬件間的橋樑

PTX允許進行細粒度優化
如寄存器分配和Thread/Warp級別的調整
這種編譯複雜又難維護
所以其他公司用的是CUDA這種高級編程語言

V3硬體效率之所以比Meta高出10倍
關鍵在於V3針對自己需求把132個流式多處理器（SMs）中的20個修改成負責服務器間通信而不是計算任務
變相繞過了硬體對通信速度的限制
這點是用輝達的PTX實現的,不是CUDA

雖然DeepSeek把優化做到極致
然而同行表示
DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU
針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.132.195 (臺灣)

※ PTT 網址

推

boards 01/29 19:58恐怖！DeepSeek遭以色列公司起底可

→

boards 01/29 19:58生成惡意程式竊取信用卡資料

→

MoonCode 01/29 19:58換 cpu 就重寫啊

推

hortl233 01/29 19:59這有點猛

※ 編輯: jackliao1990 (111.253.132.195 臺灣), 01/29/2025 20:04:44

推

royalpichu 01/29 20:05ASIC 噴

→

jacky40383 01/29 20:07用PTX去優化速度早不是新聞了就是

→

jacky40383 01/29 20:07維護跟編寫麻煩

推

neil0611 01/29 20:11厲害了我的國

推

whizz 01/29 20:14無聊又不是首次有人用ptx

推

X28338136X 01/29 20:33那做transformer 加速器有搞頭嗎

推

shyshyan 01/29 20:42資料都開源了是在恐怖三小

→

olozil 01/29 21:18翻譯:中國人礦便宜用人硬幹

推

johnjohnlin 01/29 21:42難移植的是後端吧，前端我怎麼記得

→

johnjohnlin 01/29 21:42CUDA 4早就改LLVM了

推

mercedeces 01/29 22:10nv賺,還是用它的

推

MatTZerS 01/29 22:12請問 SM 用於通訊是什麼意思

推

abc21086999 01/29 22:30換個硬體就不能用很麻煩欸

推

c963852002 01/29 22:49黃大：不講武德改我晶片？

推

Aquarius126 01/29 23:15不用C語言改用ASM組合語言優化的概

→

Aquarius126 01/29 23:15念

推

MisterSmile 01/29 23:43井蛙：看吧，他們就是用手刻

推

HiHiCano 01/29 23:43小量還可以啦大量你換gpu要重寫會

→

HiHiCano 01/29 23:43死人的

噓

IndeedGod 01/29 23:43一樓黑熊部隊嗎？這裡是科技版不是

→

IndeedGod 01/29 23:43八卦版

推

ohohohya 01/29 23:57沒事到時候真的證明抄襲chatgpt會

→

ohohohya 01/29 23:58哭的更大聲

→

tactics2100 01/30 01:14反正窮人又換不起 deepseek指定的硬

→

tactics2100 01/30 01:14體有錢換的也是一批就買幾千台以上

→

tactics2100 01/30 01:14 然後操到爛又不會頻繁更換硬體規

→

tactics2100 01/30 01:14格接著再頻繁改寫

推

zxp9505007 01/30 01:35CUDA開發方便啊但優化還是得取捨

→

musashi023 01/30 02:49ds繞過CUDA直接寫PTX很厲害嗎 PTX對

→

musashi023 01/30 02:49於ds來說不就只是當成另一種語言而

→

musashi023 01/30 02:49已

→

otaku690 01/30 04:19做cuda優化的都會碰PTX吧...

噓

pig2014 01/30 06:30太吹，靠底層語言優化這種事也能拿

→

pig2014 01/30 06:30來吹是三小，那大家都改寫C不就飛

→

pig2014 01/30 06:30上天了？軟體開發發展至今會往高階

→

pig2014 01/30 06:30語法移動不是沒有原因的，因為開發

→

pig2014 01/30 06:30流程相較於算力需求更重要。現在問

→

pig2014 01/30 06:30題在於nv硬體資源成本過高或是存在

→

pig2014 01/30 06:30屏障才有這種鳥需求，等未來算力足

→

pig2014 01/30 06:30夠或是發展到異質訓練的情況時，這

→

pig2014 01/30 06:30東西突然就武功全廢了

→

tactics2100 01/30 07:54你這種說法就像廠商開發UE引擎然後

→

tactics2100 01/30 07:54開發出黑神話悟空你就說有什麼好吹

→

tactics2100 01/30 07:54的

推

stocktonty 01/30 08:42就2B鉛筆超頻啊XDDD

→

xiemark 01/30 09:24cudnn效率不是最佳

噓

w180112 01/30 09:33支語滾

噓

NexusPrime 01/30 09:36講的好像其他公司不懂PTX一樣

→

bnn 01/30 10:00繞是一定能繞使用者習慣要不要改

推

kaltu 01/30 10:33不是繞過中層C寫底層ASM，是業界都

→

kaltu 01/30 10:33用高層語言 Java 跨平台的時候直接

→

kaltu 01/30 10:33寫無法移植的中層C，換張卡就要重寫

→

kaltu 01/30 10:34一遍，復用性有限

→

kaltu 01/30 10:34除非你這間公司只玩一張顯卡的生命

→

kaltu 01/30 10:34週期就打算收攤，否則這種問題應該

→

kaltu 01/30 10:34是改進tool chain，第一次編譯和第

→

kaltu 01/30 10:34二次編譯的編譯器最佳化策略，而不

→

kaltu 01/30 10:34是跳過第一次編譯器人肉compile然後

→

kaltu 01/30 10:34新的顯卡架構出來整間公司的軟體資

→

kaltu 01/30 10:34產蒸發

→

kaltu 01/30 10:35但如果DS真的只是拿偷來的GPT權重蒸

→

kaltu 01/30 10:35餾來重新包裝成自己做的的話，的確

→

kaltu 01/30 10:35是可以只幹這一票騙到補助和VC之後

→

kaltu 01/30 10:35跑路

→

kaltu 01/30 10:36那也可以理解為什麼開源這麼乾脆，

→

kaltu 01/30 10:36因為根本不需要為公司的未來性著想

推

a1234567289 01/30 11:18樓上… 所謂的蒸餾不是拿權重.. 是

→

a1234567289 01/30 11:18拿GPT的輸出入當資料訓練

→

Lordaeron 01/30 12:19拿CHATGPT 的輸出，這樣的費用要多?

推

annboy 01/30 12:52蒸餾可以想成是拿大模型的

→

annboy 01/30 12:52input output去背答案

→

tactics2100 01/30 13:04簡單來說 deepseek 就是開血輪眼

→

tactics2100 01/30 13:05或是金輪法王用小無相神功催動

→

tactics2100 01/30 13:05少林72絕技

→

tactics2100 01/30 13:06更正鳩摩智

→

tactics2100 01/30 13:07補充血輪眼是後天自己開發出來的

→

guteres 01/30 13:29最幹的是openai和MS吧，花了一堆錢

→

guteres 01/30 13:29和智慧財產權的費用，被人蒸餾去用

→

guteres 01/30 13:29然後再開源。

→

tactics2100 01/30 13:34一堆文學作家也抗議 openai 蒸餾他

→

tactics2100 01/30 13:34們的創作啊

推

lolpklol0975 01/30 14:51護城河CUDA 被繞過去？

噓

musashi023 01/30 15:03不要在說什麼繞過去了 PTX還是nv家

→

musashi023 01/30 15:03的到底繞過去了什麼這篇標題就在

→

musashi023 01/30 15:03亂寫

噓

ellight 01/30 15:27講的好像PTX是啥跨世紀發明

→

ellight 01/30 15:27PTX就是N卡上面的低階語言而已

→

tactics2100 01/30 16:12所以對岸以C++語言寫出黑神話悟空

→

tactics2100 01/30 16:12你也會嗆C++又不是啥跨世紀發明？

→

tactics2100 01/30 16:12基努李維出演駭客任務你也會嗆攝影

→

tactics2100 01/30 16:12機又不是啥跨世紀發明嗎？

推

tomet 01/30 16:56確實沒什麼好吹的，時間會證明

→

physicsdk 01/30 17:12跟死忠仔沒什麼好討論的邏輯0分的

→

physicsdk 01/30 17:12論述看了會降智

推

kingofsdtw 01/30 18:49笑死，原來是手刻底層

→

Ekmund 01/30 19:59如果有新聞寫基努李維繞過好萊塢

→

Ekmund 01/30 19:59用攝影機拍JohnWick

→

Ekmund 01/30 19:59那對我會開嗆

→

Ekmund 01/30 20:01這就邏輯很奇怪的講法啊w

噓

tactics2100 01/31 00:10他也沒宣傳主打繞過什麼啊

→

tactics2100 01/31 00:12而且好萊塢又不是協會組織

→

tactics2100 01/31 00:18就像人踩在地球一樣呼吸空氣「繞過

→

tactics2100 01/31 00:18」講得好像要不依靠地球空間生存和

→

tactics2100 01/31 00:18 不呼吸氧氣來達成某成就才能讓你

→

tactics2100 01/31 00:18信服

→

tactics2100 01/31 00:20就像人人都有權利站在地球上呼吸空

→

tactics2100 01/31 00:20氣一樣自然*

→

tactics2100 01/31 00:21那你說看看黑神話你有想要要求繞過

→

tactics2100 01/31 00:21什麼？

推

Somebody99 01/31 07:43ptx比cuda低階沒錯，但也沒有低到

→

Somebody99 01/31 07:43沒有維護性吧，那這麼華

→

Ekmund 01/31 08:59黑神話有繞過什麼？不就正常用UE5

→

Ekmund 01/31 09:00這個對比更怪他沒有特定硬體依賴

噓

tactics2100 01/31 09:30所以黑神話不用顯卡就能玩？

→

tactics2100 01/31 09:34我還以爲你會要求繞過windows(=電影

→

tactics2100 01/31 09:34的好萊塢)

→

Ekmund 01/31 10:33喔所以你是問黑神話"假設"要繞過

→

Ekmund 01/31 10:33什麼的場景嗎？

→

Ron51320 01/31 14:16一個轉譯程式的事，是要多難

→

Ron51320 01/31 14:18也許AI都能自己轉了

噓

tactics2100 01/31 15:33已經開始耍賴用問題回答問題了那就

→

tactics2100 01/31 15:33沒有必要理你了

→

Ekmund 01/31 20:05我一直在回答問題是你自己一個跳

→

Ekmund 01/31 20:05過一個場景沒建立清楚就往下跑誰

→

Ekmund 01/31 20:05知道你的對比標準是什麼？

→

Ekmund 01/31 20:05你看spec或開spec也這樣搞的嗎

→

Ekmund 01/31 20:29我想想喔拿你最常講的黑神話來說

→

Ekmund 01/31 20:29你要假設他繞過什麼對照回直接用

→

Ekmund 01/31 20:29PTX而不用CUDA的場景那就是遊戲科

→

Ekmund 01/31 20:29學跟Epic講好 UE整包太大不想用只

→

Ekmund 01/31 20:29抽某一部分lib出來做一些常見的圖

→

Ekmund 01/31 20:29形運算和cross-platform的功能完

→

Ekmund 01/31 20:29成後遊戲爆紅媒體各種報到接著有

→

Ekmund 01/31 20:29篇文跳出來說遊戲科學打破Epic限制

→

Ekmund 01/31 20:29繞過UE 用xx模組做ooo...

→

Ekmund 01/31 20:29呃那看起來依然是可以吐槽的樣子

其他人也閱讀了

PTT 熱門相關