PTT推薦

[問卦] DeepSeek是不是屌爆了啊?

看板Gossiping標題[問卦] DeepSeek是不是屌爆了啊?作者
sxy67230
(charlesgg)
時間推噓20 推:22 噓:2 →:27

餓死抬頭,阿肥外商碼農阿肥啦!

昨天是DS開源週第一週,DS直接震撼彈開源他們的DeepSeek FlashMLA,也就是他們直接改寫底層自己實現的方法,阿肥昨天趕緊拿他們的組件改寫自己的VLLM框架實測結果比一堆當前別人開源的方法throughput硬是快了100多tokens/s。

這真的太屌啦!阿肥看一些FlashInfer也是用Cuda寫的但就是慢到爆,他們自己的快到不像話。

有沒有瓜?

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.3.105 (臺灣)

※ 文章網址:
https://www.ptt.cc/Gossiping/E.ZB-Edic5Z9Xo

hercheles 02/25 07:56說中文

bluebluelan 02/25 07:57你要說FlashMLA跟什麼比啊

bluebluelan 02/25 07:57MLA本來就可以大幅減小KV cache size

這樣說好了,vllm(開源推論框架)自己本身就有實作一套mla給開源DeepSeek使用,flash infer這個開源項目也有mla的實作,當前測試DeepSeek昨天釋出的Code就是比其他人在同樣 Hopper架構的晶片下速度還快100多tokens/s。

psion 02/25 08:03高是高在這是對資本泡沫的最大傷害

※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 08:04:18

wsdykssj 02/25 08:051/5,還有四個開源等著發佈,會有多驚

wsdykssj 02/25 08:05喜呢

psion 02/25 08:05不過我還是很好奇他們怎麼用PTX繞過去的

a1223356 02/25 08:06還有綠共造謠是假的,結局一直被打

a1223356 02/25 08:06臉,現在美國公司都開始在用這套系

a1223356 02/25 08:06統。

g1254501 02/25 08:07你不怕被習近平知道你看什麼片尻?

程式碼阿肥看了7成左右了,也沒看到有插什麼木馬,習精瓶是要看三小?

andre9 02/25 08:09真的強

ImBBCALL 02/25 08:09才多一百多

※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 08:10:58

yesonline 02/25 08:11省很多

sellgd 02/25 08:13100多token 是比之前快幾%?

seakian 02/25 08:20我廢文組看不懂啦,講國語可以嗎?

sellgd 02/25 08:22就出答案的速度 快了多少%

squelch 02/25 08:24屌爆了

wumins 02/25 08:28青鳥還卡在64

baan 02/25 08:34228要到了

sellgd 02/25 08:37剛找了新聞 運算速度可達業界平均值的8倍

sellgd 02/25 08:37誤 噓了

iKelly 02/25 08:45算法優化後算力提升8倍,硬體要花多少時

iKelly 02/25 08:45間金錢才追得上

aegiss 02/25 08:48青鳥都文組看不懂

ChikanDesu 02/25 08:50問題是算法終究是能找出來的 硬體繞不

ChikanDesu 02/25 08:50過物理限制

ChikanDesu 02/25 08:50你能找到最優的算法 然後就沒有然後了

ChikanDesu 02/25 08:51更何況你還開源 那算法這邊就愈來愈接

ChikanDesu 02/25 08:51近上限

sellgd 02/25 08:54就硬體需求還在 但不像以前那麼迫切而己

sellgd 02/25 08:55但頂尖公司還是會儘量買硬體

sellgd 02/25 08:55一般使用自建的成本大降

sellgd 02/25 08:55一般使用者

create8 02/25 08:57幻方本業就已經有瘋狂優化底層的需求,

create8 02/25 08:57拿去做agi 只是剛好而已

create8 02/25 08:59聽說他們都找比賽拿獎的去寫扣

sheng76314 02/25 09:00家用最低8000台幣能搞 正常用6萬多

Iperfection 02/25 09:11理組也是有分科的

y124421473 02/25 09:13上傳圖片分析超慢,GPT都10張了吧

vsbrm 02/25 09:16最後還是要看硬體

ironkyoater 02/25 09:19民進黨:你這個該死的中共同路人

funster 02/25 09:42翻譯翻譯

gayx2 02/25 09:58真的別想太多,你終究需要cuda的

DarkerDuck 02/25 09:58傻鳥:問64 throughput 多少?

jerrey 02/25 10:03物理低環境ds還是會完亂答

WWIII 02/25 10:21講中文 這邊 文組版

minaei 02/25 11:26感覺40系列應該可以用

TheBeast 02/25 11:36DS open sourcing everything Day2

TheBeast 02/25 11:41看了最新的optimized MOE的lib驚為天人

真的很屌,他們裡面還用到直接對Nvidia底層的記憶體直接讀取(新聞說的PTX指令就是這 段)直接讀取記憶體分配給不同的專家然後再把記憶體片段出來的直接讀取專家輸出融合, 不過我猜在不同NV架構下應該會有記憶體溢位的Bug,所以可能有針對不同晶片再優化。

losage 02/25 13:03乾,我聽不懂。我終於了解文盲的痛苦了

※ 編輯: sxy67230 (101.10.3.105 臺灣), 02/25/2025 14:49:51