PTT推薦

Re: [問卦] DeepSeek是不是屌爆了啊?

看板Gossiping標題Re: [問卦] DeepSeek是不是屌爆了啊?作者
sxy67230
(charlesgg)
時間推噓 2 推:22 噓:20 →:25

阿肥外商碼農阿肥啦!

昨天是DeepSeek開源週的第三天,因為真的屌炸了還想在發一篇。昨天DS直接發佈了他們把H800操到極限的核心-DeepGemm。

給文組科普的就是當前不管什麼大語言模型本質的數學核心就是線性代數最基礎的通用矩陣乘法GEMM(General Matrix Multiplication),而過往很多驗證發現隨著模型參數擴大對於矩陣中浮點數計算是可以壓縮或省一點起來的,省起來對於大語言模型的性能損失並不會差異太大。

然後DS這次發佈的技術報告有說他們是混合了Hopper的TMA(Tensor memory Accelerator,白話就是傳統做矩陣計算的時候要把thread中的計存寫出到global memory 然後再最後讀回去組合,但TMA直接寫在計算核心裡面就不用一直讓核心去外部訪問)架構,然後再進行分切片跟分塊的演算法優化。

阿肥自己昨天傍晚到家就興奮實測自己寫的混TMA的FP8 Gemm用最樸素的方式實作結果分128個區塊頂多也才350TFlops跟大部分的技術報告相差不大,但用DeepGEMM直接硬尻最快可以衝到700多TFlops,讓阿肥大為震撼。

目前還在細讀他們的Gemm到底是怎麼實作的。

DeepSeek整個太Sick了。

這才是我們技術人要的真正的OpenAI,真正完全的開誠佈公促進人工智慧的全人類發展,未來AGI指日可待。

以上

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.164.250 (臺灣)

※ 文章網址:
https://www.ptt.cc/Gossiping/E.m85jtSVAPgwg

mopepe5566 02/27 08:36祖國愈來愈強,台灣快統一了

mopepe5566 02/27 08:36美中俄,一起分割台灣

k1k1832002 02/27 08:37雖然硬體閹割效能,但透過算法創新補上

k1k1832002 02/27 08:37一大塊

todo635387 02/27 08:38只有H架構GPU可以用?

對,當前只支援H系列,家用顯卡沒TMA架構可能要再等等。

charleschang 02/27 08:38略懂

peterwu4 02/27 08:39為匪宣傳不可取,有想過塔綠班的心情嗎?

ErosAmour 02/27 08:40人家看不懂還是會噓你舔共,又說這些

ErosAmour 02/27 08:40東西查不到文革和8964,而且還危害呆

ErosAmour 02/27 08:40完國安,早該禁用啦。

ayianayian 02/27 08:43真的很屌,讓我不禁在想openAI的人到

ayianayian 02/27 08:43底在幹嘛

lifeowner 02/27 08:45飯乞匪又要哭了

bigwun73 02/27 08:45民禁黨:我看不到我看不到,一切都是幻

bigwun73 02/27 08:45

iLeyaSin365 02/27 08:45我雖然不懂你在興奮什麼

iLeyaSin365 02/27 08:46不過我可以拿去問人工智能看看

quid1121 02/27 08:46我以為是開源底層繞過cuda 直接組合語言

quid1121 02/27 08:46硬幹 結果還在python import 還吹?

呃,底層實作都是用Cuda混合PTX(GPU組語)指令寫的,Cuda是方便有些函數不用自己造輪 子。人家也都說自己是用NV晶片了,只是美國不提供高階H100那人家用次等的晶片實作發現 晶片的計算能力還沒到極限結果弄出來比高階晶片還快。熟底層的一堆都馬用Cuda寫,Pyth on只是膠水語言給你們這些只會import的人用的。

iLeyaSin365 02/27 08:46所以deepseek 團隊,做了什麼了不起

bigwun73 02/27 08:46封建社會百姓,不需要文化,笨一點,資

iLeyaSin365 02/27 08:46的事嗎

bigwun73 02/27 08:46訊壅塞一點,比較好管理,傻逼

yesonline 02/27 08:48壓榨式函式庫 NVIDIA不喜歡這個

strikecbu 02/27 08:49我看以後OpenAI 變年度獎項好了,這樣

strikecbu 02/27 08:49對整個人類群體都好

quid1121 02/27 08:52我認為要吹就拿點硬功夫出來 別以為八卦

quid1121 02/27 08:52有錢就可以帶風向~

沒帶風向,只是覺得你蠻可憐的,你不是工程師根本看不懂人家的Code厲害在哪裡吧?本來 好東西就值得稱讚,哪天OpenAI全開源我也會發一篇。

Paulsic 02/27 08:52有競爭是好事相互漏氣求進步

huzii01 02/27 08:53喔喔,屌爆了,人民要吃上飯了!

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 08:56:54

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:00:06

iLeyaSin365 02/27 09:02其實說真的要帶風向,沒人懂的東西

iLeyaSin365 02/27 09:02也帶不起來

volkov 02/27 09:05青鳥不爽了

quid1121 02/27 09:07急了?

quid1121 02/27 09:07快把底層源碼開源出來讓我們笑一笑啊~

人家早就開源了,連Google跟GitHub都不會用還敢噓,笑你

https://github.com/deepseek-ai/DeepGEMM/tree/main

retrud 02/27 09:08我使用經驗比chatgpt 更人性化

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:10:25

quid1121 02/27 09:11怎不翻年前怎麼吹 直接ptx硬幹底層 繞

quid1121 02/27 09:11過cuda 今天怎變成混合ptx cuda? 笑死~

現今有哪個工程師是完全自己從0開始造輪子的,人家技術報告也寫了在主要MoE通訊跟GEMM FP8的計算上他們才是用PTX寫的,可憐文盲是連英文閱讀都有問題?

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:14:38

followmytype 02/27 09:26不明覺厲

IDfor2010 02/27 09:46塔綠說是假的,你最好注意一下

chita0258 02/27 09:50輪子引擎都是別人家的 改個方向盤罷了

更正確的說法是人家把引擎拆了發現引擎的運作方式根本還沒到運作極限,所以改造了引擎 的運作方式後達到賽車引擎的效果。這個人家技術報告重頭到尾都是這樣說的,不過很多人 就文盲看不懂英文。不過即便是改造引擎也是屌炸了。當前美國很多矽谷巨頭都已經忘了最 原始的車庫精神了,至於台灣就不用想了連這種精神都沒有過。

orange0319 02/27 09:51一堆網軍進攻囉,只會掩耳盜鈴。從來

orange0319 02/27 09:51不正視事情本質,難怪民進黨貪污只要

orange0319 02/27 09:51喊抗中保台就能被原諒

duriamon 02/27 09:56這幾天的開源真的很猛,美國人財大氣粗

duriamon 02/27 09:56,但浪費錢的燒法我覺得在燒完前也不會

duriamon 02/27 09:56到AGI,呵呵!

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:09:46

quid1121 02/27 10:11還真以為人家都看不懂? 笑死~

quid1121 02/27 10:11拜託把底層PTX原碼開源 讓我們笑一笑~

quid1121 02/27 10:15年前不是吹繞過cuda? 林北就是要看他是

quid1121 02/27 10:15怎麼繞過cuda 自己用ptx硬幹~ 這才是硬

quid1121 02/27 10:15功夫~ 只會狂吹 ptx原碼到底生出來了沒?

都在GitHub裡面人家都幫你包起來了,你該不會看不懂吧?有夠可憐一直跳針耶,懶得回你 了。

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:17:55

whywhywhy 02/27 10:20雖然我不懂 但開源給推 可以刺激openAI

whywhywhy 02/27 10:20發展也給推deepsick實際應用效果不錯

whywhywhy 02/27 10:20對AI發展也不是什麼壞事 真的不需要看

whywhywhy 02/27 10:20到中國就噓文

quid1121 02/27 10:21嗯~ 很會躱喔~ 被挫到痛點了厚~ XDD

quid1121 02/27 10:22快換一個有硬功夫的出來吹啦~

我只是覺得跟文盲講話很痛苦而已,GitHub給你了也不會自己去看,幹嘛浪費時間跟你這種 人多講話。你連wgmma是什麼都不知道了,難怪給你GitHub也看不懂。更何況你根本就不是 想來討論的,幹嘛浪費口舌難不成要一行一行Code講給你聽?要這樣解釋給你聽那你跟文盲 有什麼不同?真的看懂麻煩你把討論品質提高,說出你閱讀完Code的看法吧,可憐蟲

whywhywhy 02/27 10:23但對民進黨跟青鳥來說實際上怎樣根本不

whywhywhy 02/27 10:23重要 反正數發部的AI>>>>>>>>>>deepsee

whywhywhy 02/27 10:23k就是了 然後我上面不小心打成deepsick

whywhywhy 02/27 10:23了XD

ms0529876 02/27 10:29推討論

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:29:28

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:32:50

quid1121 02/27 10:35林北在寫cuda的時候 你還在媽媽10元來~

quid1121 02/27 10:35還嘴人看不懂~ 笑死人了~

喔,是喔。那你不會自己去寫一個,我自己用cutlass改的實驗才350TFlops,人家可以做到 700TFlops,那對你來說超過一定不難吧?套一句Linux Torvalds的話,多說無益,show me the code. 我等你開源 喔,我補充一下,你一開始還說人家是import Python,我都給你GitHub裡面人家明明就有P TX指令在.cuh裡面,你都說你很熟Cuda結果還看不懂鬼扯人家import Python。很熟CUDA? 我笑了

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:47:10

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:54:27

HowLeeHi 02/27 11:09不知道今天會發什麼

我看他們GitHub issue有說在討論可能會放出fp8 wgrad back propagation 的部分,有點 期待週末又有東西可以讀讓自己進步了。

※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 11:15:03

Bayern5566 02/27 11:48繞過cuda 實現中華民族偉大復興