PTT推薦

Re: [討論] DeepSeek消息的三大誤區

看板HatePolitics標題Re: [討論] DeepSeek消息的三大誤區作者
isaacting
(2312312)
時間推噓 9 推:9 噓:0 →:18

※ 引述《z1976 (z1976)》之銘言:
: 本來標題想寫謠言的,但有些部份可能只是基於對技術名詞不熟悉產生的誤解,我姑且不: 假設發佈源頭是有意為之
: 誤區1:DeepSeek和微軟、NVIDIA、HuggingFace等公司合作
: DeepSeek是MIT Licence的開源軟體,簡單說就是可以修改及商用的,它所謂的開源包含: 訓練程式碼和權重,那些雲端服務公司拿開源的DeepSeek上架到他們的服務平台,使用者: 可以將DeepSeek部署到自己的應用中,這樣算不算一種「合作」,我覺得2:8吧,但我問: 了Copilot它是說不算啦
: https://i.imgur.com/hz2gtdN.jpeg

圖 DeepSeek消息的三大誤區
: 同樣問題我拿去問DS-r1,它直接說沒合作,但由於DS現在不能聯網搜索最新資訊所以就: 不參考它的答案
: 不過這些公司在發佈時都有稱讚DeepSeek的「優秀」,這不容否認
: 誤區2. DS用PTX語言開發可以繞過CUDA
: 其實任何演算法本來就可以不用cuda,那為何要讓「繞過CUDA」聽起來像一種魔法?我就: 不說了
: DeepSeek 透過 PTX 語言直接呼叫 GPU 硬體資源,是基於直接實現工程師的想法而跳過: 編譯器的決策,但這並不代表沒有用到CUDA硬體。相反地,你寫越多PTX代碼反而越依賴: 於輝達的硬體而增加移植的難度

小弟是擔任10年資歷以上的韌體工程師,所以對於這討論很有感:

我剛好也學過一點AI CUDA等東西,那我會把PTX跟CUDA做以下的類比

CUDA: C++ Python等高階語言
PTX: 組合語言


我以前在學組合語言的時候就發現,組合語言開發出來的程式就會比c++小很多,
而且執行速度更快,但缺點就是很難維護,只要有一個 bug出現,就要有de到死
的心理準備,而且很難移植到其他的硬體平台。
譬如x86的組合語言就跟Arm的組合語言不一樣,簡單上來說,在x86上面開發的組合語言是沒有辦法在Arm的機器上面跑。

現在很多人說 DeepSeek繞過了CUDA, 所以不必被Nvidia綁死,我看了其實滿腦的黑人問號。DeepSeek這樣搞,就更只會被Nvidia綁死,因為根本無法移植到non-Nividia的
機器跑,但是這樣做確實有好處,因為在現實的軟體開發工作中,如果要拚效率的話
有時在c++的程式碼裡面會內嵌組合語言,呼叫特定的指令集(instrunction set)
來加速運算效率。

我曾經寫過一個程式是跑fft的,如果只是單純用CPU來跑的話,可能
需要10 ms左右,但如果使用intel裡面支援的dsp instruction來寫的話,可以快到1~2
ms,

所以至少是快5倍以上,但這程式要移植到Mac上面去,那就要整個重寫,
因為Mac上面支援的dsp instruction set跟intel就是不一樣。


: 誤區3. 高階晶片將無用武之地
: 無論是在DS出現之前還是之後,高階和低階 GPU 都能執行 AI 運算,但差異在於運算速: 度和效率。
: DS的出現或許一定程度的削弱了AI先驅者(OpenAI等) 的壟斷地位,但不能保證未來各公: 司還是會繼續在硬體資源上競逐,畢竟預算充足下誰不想要更快?
: 另外以前就有一些分析以「租用」的角度來比較,高階GPU不僅更快達成目標,還省下以: 時間計費的租金成本。
高階gpu拿來跑訓練還是有必要的

沒辦法,當你要跑大資料的模型訓練的時候 ,高階的 gpu就真的很重要,
deepSeek的出現可以在終端上跑推理,也許不需要高端的gpu,但是要訓練出
deepseek那樣的模型,高階的GPU應該還是少不了的


大概是這樣



--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.88.28 (臺灣)
PTT 網址

geordie 02/03 08:47應該不用跑到黑悟空那種3A的程度吧?

quid1121 02/03 08:47幫推 但你這篇藍白共網軍聽不懂~

camp0102 02/03 08:50DS改善了一個問題 但後面問題還多著呢

camp0102 02/03 08:50只有白癡草會以為贏了

DS確實是一個重要的發展里程碑,至少我身邊有在弄AI的朋友都覺得DS 是一個重要的發展,敢把自己辛苦弄得東西開源,不簡單 但開源之後,應該會有比DS更強大的模型跑出來 就是這樣

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 08:52:32

neofire 02/03 09:12組合語言 O.o 90 dos年代五專必修耶

TeaEEE 02/03 09:18等GPU到瓶頸時才值得這樣搞,中國可以因

TeaEEE 02/03 09:18為拿不到新晶片

Supasizeit 02/03 09:31他是說PTX是AI寫的

AI寫的code就能保證100%正確嗎? ...QQ 這完全是想太多惹..QQ 理論上DeepSeek改寫完是可以在AMD或是中國自產的GPU上面跑 這絕對是可行的,但就只是理論上.... 就好比我在intel上寫的 fft程式,改寫完理論上也可以在Mac上面跑 演算法沒有變阿 但理論畢竟就是理論...恩....

kuninaka 02/03 09:34小草現在很開心他們用PTX寫

kuninaka 02/03 09:35整個快笑死,那直接綁N卡硬體了

kuninaka 02/03 09:36PTX也是NV提供的阿,到底繞過啥

kuninaka 02/03 09:36換摩爾線程跑,我才佩服

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 09:43:04

geordie 02/03 09:45AI 寫程式能正確的話,我看全世界的語言

geordie 02/03 09:45工程師(程式語言)都要被解雇了唄

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 09:48:43

z1976 02/03 09:48AI寫code目前只到讓工程師少打一些字的程度

foolfighter 02/03 09:49專業推

William 02/03 09:50如果是swe應該可以理解有能力寫ptx表示

William 02/03 09:50有能力重寫移植到其他gpu/npu

理論上絕對是可行的! 但就是需要花時間心力而已啊~~~~~ 打個比方來說,作業系統的理論大家也都知道,Linux的code也都開源了 "理論上要從0寫出一套新的作業系統是可行的",但那就只是理論上而已 中國推出最新的作業系統還是Linux based的

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 09:53:47

z1976 02/03 09:57許多媒體用「繞開CUDA」這個說法就有點騙

William 02/03 09:58這幾天的新聞就有deepseek model infere

William 02/03 09:58nce的部分在amd比NV同級卡快的新聞,推

William 02/03 09:58測就是因為在amd有做優化..

絕對是這樣~~~演算法的架構不可能改變 就像在intel上面寫fft跟在mac上面寫fft的理論一定是一樣的 但是有沒有硬體的優化就可能會差很多

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 10:01:20

William 02/03 10:01另外我是有點好奇intel那來dsp...你是在

William 02/03 10:01說avx?

是的~~~專業 不過我是拿來做DSP處理,所以我印象中就是DSP指令集...

※ 編輯: isaacting (49.218.88.28 臺灣), 02/03/2025 10:03:34

William 02/03 10:04avx不是dsp...應該是非標準x86的instruc

William 02/03 10:04tion set...所以某些程式用icc編譯的效

William 02/03 10:04能會比gcc好很多..