[問卦] DeepSeek是不是屌爆了啊?
餓死抬頭,阿肥外商碼農阿肥啦!
昨天是DS開源週第一週,DS直接震撼彈開源他們的DeepSeek FlashMLA,也就是他們直接改寫底層自己實現的方法,阿肥昨天趕緊拿他們的組件改寫自己的VLLM框架實測結果比一堆當前別人開源的方法throughput硬是快了100多tokens/s。
這真的太屌啦!阿肥看一些FlashInfer也是用Cuda寫的但就是慢到爆,他們自己的快到不像話。
有沒有瓜?
--
說中文
你要說FlashMLA跟什麼比啊
MLA本來就可以大幅減小KV cache size
這樣說好了,vllm(開源推論框架)自己本身就有實作一套mla給開源DeepSeek使用,flash infer這個開源項目也有mla的實作,當前測試DeepSeek昨天釋出的Code就是比其他人在同樣 Hopper架構的晶片下速度還快100多tokens/s。
高是高在這是對資本泡沫的最大傷害
1/5,還有四個開源等著發佈,會有多驚
喜呢
不過我還是很好奇他們怎麼用PTX繞過去的
還有綠共造謠是假的,結局一直被打
臉,現在美國公司都開始在用這套系
統。
你不怕被習近平知道你看什麼片尻?
程式碼阿肥看了7成左右了,也沒看到有插什麼木馬,習精瓶是要看三小?
真的強
才多一百多
省很多
100多token 是比之前快幾%?
我廢文組看不懂啦,講國語可以嗎?
就出答案的速度 快了多少%
屌爆了
青鳥還卡在64
228要到了
剛找了新聞 運算速度可達業界平均值的8倍
誤 噓了
算法優化後算力提升8倍,硬體要花多少時
間金錢才追得上
青鳥都文組看不懂
問題是算法終究是能找出來的 硬體繞不
過物理限制
你能找到最優的算法 然後就沒有然後了
更何況你還開源 那算法這邊就愈來愈接
近上限
就硬體需求還在 但不像以前那麼迫切而己
但頂尖公司還是會儘量買硬體
一般使用自建的成本大降
一般使用者
幻方本業就已經有瘋狂優化底層的需求,
拿去做agi 只是剛好而已
聽說他們都找比賽拿獎的去寫扣
家用最低8000台幣能搞 正常用6萬多
理組也是有分科的
上傳圖片分析超慢,GPT都10張了吧
最後還是要看硬體
民進黨:你這個該死的中共同路人
翻譯翻譯
真的別想太多,你終究需要cuda的
傻鳥:問64 throughput 多少?
物理低環境ds還是會完亂答
講中文 這邊 文組版
感覺40系列應該可以用
DS open sourcing everything Day2
看了最新的optimized MOE的lib驚為天人
真的很屌,他們裡面還用到直接對Nvidia底層的記憶體直接讀取(新聞說的PTX指令就是這 段)直接讀取記憶體分配給不同的專家然後再把記憶體片段出來的直接讀取專家輸出融合, 不過我猜在不同NV架構下應該會有記憶體溢位的Bug,所以可能有針對不同晶片再優化。
乾,我聽不懂。我終於了解文盲的痛苦了
24
[爆卦] openAI 首席研究員來自台灣Deepseek事件後 OpenAI首席研究Mark chen 出來回應Deepseek Mark chen 2012年畢業於MIT20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普6X
[討論] DeepSeek真的開源?錯!大錯特錯!!雖然 DeepSeek 宣稱其推出的技術是開源的,但實際上,從一些細節可以看出,這並非完 全的開源策略。開源的核心精神是將源碼公開,讓任何人都可以自由使用、修改、分發並 進行創新。然而,DeepSeek 的「開源」策略在某些方面有所保留,這使得它更像是一種 商業話術,而非真正的開放。 首先,DeepSeek 雖然公開了模型權重和一部分代碼,但對於完整的技術架構和相關的開![[討論] DeepSeek真的開源?錯!大錯特錯!! [討論] DeepSeek真的開源?錯!大錯特錯!!](https://scontent-ams4-1.cdninstagram.com/v/t51.2885-19/358172841_237944672388619_5466810910574150965_n.jpg?stp=dst-jpg_s640x640_tt6&_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=Nbu1IwKQihsQ7kNvgHK40Y6&_nc_gid=df4ec12a02804a0fb498bb0f0784b123&edm=APs17CUBAAAA&ccb=7-5&oh=00_AYDabqpZiQXqS-D7nwV38nKib7udjQ51aBbyYqwPgr5OFw&oe=67A21D0D&_nc_sid=10d13b)
9
[問卦] 為什麼中國deepseek敢開源?OpanAI、Meta、Google都沒有開源 反而是Deepseek這間小型的初創公司敢開源他們的系統 他們不怕被拿走機密嗎? 我看好多台灣人都瞧不起阿 覺得肯定沒用 開源只會讓他們生態越來越強大嗎?9
[問卦] deepseek AI有重大進步不好嗎早安初一的鄉民們 阿肥還賴在被窩玩deepseek 試圖把他調教成女友模式 嘻嘻 是說AI就像是人類科技演進的一部分 2000年的時候,人類可能還無法想像未來會有這些強大的科技成果![[問卦] deepseek AI有重大進步不好嗎 [問卦] deepseek AI有重大進步不好嗎](https://i.imgur.com/Cps1DFyb.jpeg)
8
Re: [新聞] DeepSeek暴紅不單純?OpenAI質疑中國對openai只有開源好幾年前的模型 現在meta google m$ 的開源模型都屌打好幾條街了 用過deepseek的人都知道,deepseek是蒸餾上面那幾個開源模型 況且deepseek也有把自己的模型和程式碼都公布出來 開源的精神不就是這樣嗎?9
Re: [討論] DeepSeek消息的三大誤區小弟是擔任10年資歷以上的韌體工程師,所以對於這討論很有感: 我剛好也學過一點AI CUDA等東西,那我會把PTX跟CUDA做以下的類比 CUDA: C++ Python等高階語言 PTX: 組合語言 我以前在學組合語言的時候就發現,組合語言開發出來的程式就會比c++小很多,6
[討論] DeepSeek消息的三大誤區本來標題想寫謠言的,但有些部份可能只是基於對技術名詞不熟悉產生的誤解,我姑且不 假設發佈源頭是有意為之 誤區1:DeepSeek和微軟、NVIDIA、HuggingFace等公司合作 DeepSeek是MIT Licence的開源軟體,簡單說就是可以修改及商用的,它所謂的開源包含 訓練程式碼和權重,那些雲端服務公司拿開源的DeepSeek上架到他們的服務平台,使用者![[討論] DeepSeek消息的三大誤區 [討論] DeepSeek消息的三大誤區](https://i.imgur.com/hz2gtdNb.jpeg)
6
[問卦] 有了deepseek是不是可以不用買chatgpt4.0阿肥辣 阿肥以往都會買chatgpt4.0阿 畢竟免費版問幾個問題就要CD冷卻時間 現在有了deepseek 完全開源還能下載到本地調教3
Re: [新聞] 不滿黃牛壟斷自寫程式!免費「Max搶票機阿肥看完是覺得 檢察官就是想用幫助犯去處理寫程式的這一塊 但阿肥就在想! 假設那個搶票程式放在開源 黃牛下載開源之後用ChatGPT去修