[情報] DeepSeek繞過CUDA 自己優化底層編程語言
https://x.com/bookwormengr/status/1883355712191123666
關於DeepSeek的優化改進
許多人沒注意到的是:
DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化
在輝達的PTX語言實際編譯流程中
CUDA代碼首先被編譯為PTX代碼
PTX代碼再被編譯為目標GPU架構的機器碼(SASS,Streaming ASSembler)
CUDA起到了提供高級編程接口和工具鏈的作用
可簡化開發者的工作
而PTX作為中間層充當高級語言和底層硬件間的橋樑
PTX允許進行細粒度優化
如寄存器分配和Thread/Warp級別的調整
這種編譯複雜又難維護
所以其他公司用的是CUDA這種高級編程語言
V3硬體效率之所以比Meta高出10倍
關鍵在於V3針對自己需求把132個流式多處理器(SMs)中的20個修改成負責服務器間通信而不是計算任務
變相繞過了硬體對通信速度的限制
這點是用輝達的PTX實現的,不是CUDA
雖然DeepSeek把優化做到極致
然而同行表示
DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU
針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work
--
恐怖!DeepSeek遭以色列公司起底 可
生成惡意程式竊取信用卡資料
換 cpu 就重寫啊
這有點猛
ASIC 噴
用PTX去優化速度早不是新聞了 就是
維護跟編寫麻煩
厲害了 我的國
無聊 又不是首次有人用ptx
那做transformer 加速器有搞頭嗎
資料都開源了是在恐怖三小
翻譯:中國人礦便宜用人硬幹
難移植的是後端吧,前端我怎麼記得
CUDA 4早就改LLVM了
nv賺,還是用它的
請問 SM 用於通訊是什麼意思
換個硬體就不能用很麻煩欸
黃大:不講武德改我晶片?
不用C語言改用ASM組合語言優化的概
念
井蛙:看吧,他們就是用手刻
小量還可以啦 大量你換gpu要重寫會
死人的
一樓黑熊部隊嗎?這裡是科技版不是
八卦版
沒事 到時候真的證明抄襲chatgpt會
哭的更大聲
反正窮人又換不起 deepseek指定的硬
體 有錢換的也是一批就買幾千台以上
然後操到爛 又不會頻繁更換硬體規
格接著再頻繁改寫
CUDA開發方便啊 但優化還是得取捨
ds繞過CUDA直接寫PTX很厲害嗎 PTX對
於ds來說不就只是當成另一種語言而
已
做cuda優化的都會碰PTX吧...
太吹,靠底層語言優化這種事也能拿
來吹是三小,那大家都改寫C不就飛
上天了?軟體開發發展至今會往高階
語法移動不是沒有原因的,因為開發
流程相較於算力需求更重要。現在問
題在於nv硬體資源成本過高或是存在
屏障才有這種鳥需求,等未來算力足
夠或是發展到異質訓練的情況時,這
東西突然就武功全廢了
你這種說法就像廠商開發UE引擎然後
開發出黑神話悟空 你就說有什麼好吹
的
就2B鉛筆超頻啊XDDD
cudnn效率不是最佳
支語滾
講的好像其他公司不懂PTX一樣
繞是一定能繞 使用者習慣要不要改
不是繞過中層C寫底層ASM,是業界都
用高層語言 Java 跨平台的時候直接
寫無法移植的中層C,換張卡就要重寫
一遍,復用性有限
除非你這間公司只玩一張顯卡的生命
週期就打算收攤,否則這種問題應該
是改進tool chain,第一次編譯和第
二次編譯的編譯器最佳化策略,而不
是跳過第一次編譯器人肉compile然後
新的顯卡架構出來整間公司的軟體資
產蒸發
但如果DS真的只是拿偷來的GPT權重蒸
餾來重新包裝成自己做的的話,的確
是可以只幹這一票騙到補助和VC之後
跑路
那也可以理解為什麼開源這麼乾脆,
因為根本不需要為公司的未來性著想
樓上… 所謂的蒸餾不是拿權重.. 是
拿GPT的輸出入當資料訓練
拿CHATGPT 的輸出,這樣的費用要多?
蒸餾可以想成是拿大模型的
input output去背答案
簡單來說 deepseek 就是開 血輪眼
或是 金輪法王 用小無相神功 催動
少林72絕技
更正 鳩摩智
補充 血輪眼是後天自己開發出來的
最幹的是openai和MS吧,花了一堆錢
和智慧財產權的費用,被人蒸餾去用
然後再開源。
一堆文學作家也抗議 openai 蒸餾他
們的創作啊
護城河CUDA 被繞過去?
不要在說什麼繞過去了 PTX還是nv家
的 到底繞過去了什麼 這篇標題就在
亂寫
講的好像PTX是啥跨世紀發明
PTX就是N卡上面的低階語言而已
所以對岸以C++語言寫出黑神話悟空
你也會嗆C++又不是啥跨世紀發明?
基努李維出演駭客任務 你也會嗆攝影
機又不是啥跨世紀發明嗎?
確實沒什麼好吹的,時間會證明
跟死忠仔沒什麼好討論的 邏輯0分的
論述看了會降智
笑死,原來是手刻底層
如果有新聞寫基努李維繞過好萊塢
用攝影機拍JohnWick
那對 我會開嗆
這就邏輯很奇怪的講法啊w
他也沒宣傳主打繞過什麼啊
而且好萊塢又不是協會組織
就像人踩在地球一樣呼吸空氣 「繞過
」講得好像要不依靠地球空間生存 和
不呼吸氧氣 來達成某成就才能讓你
信服
就像人人都有權利站在地球上呼吸空
氣一樣自然*
那你說看看黑神話 你有想要要求繞過
什麼?
ptx比cuda低階沒錯,但也沒有低到
沒有維護性吧,那這麼華
黑神話有繞過什麼?不就正常用UE5
這個對比更怪 他沒有特定硬體依賴
所以黑神話不用顯卡就能玩?
我還以爲你會要求繞過windows(=電影
的好萊塢)
喔 所以你是問 黑神話"假設"要繞過
什麼的場景嗎?
一個轉譯程式的事,是要多難
也許AI都能自己轉了
已經開始耍賴用問題回答問題了 那就
沒有必要理你了
我一直在回答問題 是你自己一個跳
過一個 場景沒建立清楚就往下跑 誰
知道你的對比標準是什麼?
你看spec或開spec也這樣搞的嗎
我想想喔 拿你最常講的黑神話來說
你要假設他繞過什麼 對照回直接用
PTX而不用CUDA的場景 那就是遊戲科
學跟Epic講好 UE整包太大不想用 只
抽某一部分lib出來做一些常見的圖
形運算和cross-platform的功能 完
成後遊戲爆紅 媒體各種報到 接著有
篇文跳出來說遊戲科學打破Epic限制
繞過UE 用xx模組做ooo...
呃 那 看起來依然是可以吐槽的樣子
45
Re: [新聞] Nvidia覇主地位危矣?這些挑戰者做出便小弟請教各位大佬 NV最大的優勢,應該是CUDA CUDA讓各AI專家可以編程NV GPU 讓GPU跑你想跑的東西,而不侷限在圖形運算 AMD正是落後在這裡8
Re: [新聞] 市值蒸發19.7兆!輝達聲明:DeepSeek未簡單說明一下為什麼NVDA暴跌 很多人一定覺得很奇怪,然後各種文組出來表演秀下限 簡單說NVDA能在40系GPU出來的時候打爛AMD , 就是因為他們的AI級伺服器GPU , 例如A100 還有H100 然後Deepseek現在告訴你 , 這些為了AI打造的GPU都是垃圾 接下來我舉個簡單的例子,Intel曾經想推動WiMAX 來一統高速無線網路26
Re: [問卦] 有沒有中國這次第四次AI工業革命要GG了AI晶片很多家做,但輝達的CUDA和GPU軟硬 結合,可以用CUDA當C語言編譯器,把輝達 GPU當CPU用。現在中國的AI大用戶,,好像 不想用高閹割版的輝達H20,於是都各自要把 自家用CUDA編譯的整套程式,慢慢改寫轉移17
Re: [新聞] AI「薪」貴!科技業祭出年薪200萬搶人才又過一年了 來看本人兩年前預測文 矽谷這AI職缺明顯變少 CUDA也變少 還是一樣 CUDA與深度學習 維持大約1:10之比例 所以說 AI玩到下面 還是要自己優化深度學習算法嘛9
Re: [新聞] 中國AI晶片業陷困境 兩大關鍵廠商消沉OpenCL真的很難紅得起來 10年前大學時因為修課不得已寫過幾次 完全可以理解為何cuda打遍天下無敵手 現在基本上只有學術產paper時,出於研究性質的一發藝 近來也有很多論文,開始很放心地玩PTX (CUDA的bytecode)6
[情報] i皇6代以上內顯開CUDA加速 最高buff 52%本來想轉xf的 但我真的看不懂他真的在寫三小(抑或是說源頭cnbeta真的不知道寫什麼) 英文原文: 原作者Github:2
Re: [新聞] DeepSeek R1來了,追平o1!它現在不但比OpenAI開放,也但是問題在於,如果中國中小公司用沒有一個海歸的團隊 就做出了這麼優秀的演算法優化 那如果全世界一起繼續優化,這半年又大幅發生成本降低怎麼辦,變形金剛模型其實算法主體框架五六年沒有大的進化了 所以輝達和openai的只有堆算力一條路的敘事欺騙了世界兩年,現在敘事光環已破 用戶尤其是大用戶必然要重新審查自己的對輝達下單量。觀望或者只買原計劃的一部分是理性的X
[問卦] 手機為何需要高階半導體工法?該是說 手機為何需要最先進之塵米工法? 就電腦來講 我電腦現在用i5-4570 (2013第二季上市) 我職業是碼農 算重度用戶吧 編譯可能稍久一點 但改代碼就幾改幾個檔案 那幾個重編就可 偶會改到頭檔案才會完整重編 就那時比較慢 但也還可接受1
Re: [新聞] DeepSeek爆紅引AI「股瘟」!ASML歐股開盤DeepSeek 終歸是個軟體... 硬體標竿還是硬體標竿阿 DeepSeek 這軟體用中低階硬體來算出 其他軟體用高階設備的算力1
Re: [新聞] 陸DeepSeek走紅!開發者是「95後」天才軟體的東西,只要開源, 之後要複製拷貝優化很簡單 重點是硬體,如果可以不用輝達的GPU去訓練 才會真正造成市場後續的大震盪 目前頂多只是讓輝達的高階機器沒辦法賣那麼多錢而已