Re: [問卦] DeepSeek是不是屌爆了啊?
阿肥外商碼農阿肥啦!
昨天是DeepSeek開源週的第三天,因為真的屌炸了還想在發一篇。昨天DS直接發佈了他們把H800操到極限的核心-DeepGemm。
給文組科普的就是當前不管什麼大語言模型本質的數學核心就是線性代數最基礎的通用矩陣乘法GEMM(General Matrix Multiplication),而過往很多驗證發現隨著模型參數擴大對於矩陣中浮點數計算是可以壓縮或省一點起來的,省起來對於大語言模型的性能損失並不會差異太大。
然後DS這次發佈的技術報告有說他們是混合了Hopper的TMA(Tensor memory Accelerator,白話就是傳統做矩陣計算的時候要把thread中的計存寫出到global memory 然後再最後讀回去組合,但TMA直接寫在計算核心裡面就不用一直讓核心去外部訪問)架構,然後再進行分切片跟分塊的演算法優化。
阿肥自己昨天傍晚到家就興奮實測自己寫的混TMA的FP8 Gemm用最樸素的方式實作結果分128個區塊頂多也才350TFlops跟大部分的技術報告相差不大,但用DeepGEMM直接硬尻最快可以衝到700多TFlops,讓阿肥大為震撼。
目前還在細讀他們的Gemm到底是怎麼實作的。
DeepSeek整個太Sick了。
這才是我們技術人要的真正的OpenAI,真正完全的開誠佈公促進人工智慧的全人類發展,未來AGI指日可待。
以上
--
祖國愈來愈強,台灣快統一了
美中俄,一起分割台灣
雖然硬體閹割效能,但透過算法創新補上
一大塊
只有H架構GPU可以用?
對,當前只支援H系列,家用顯卡沒TMA架構可能要再等等。
略懂
為匪宣傳不可取,有想過塔綠班的心情嗎?
人家看不懂還是會噓你舔共,又說這些
東西查不到文革和8964,而且還危害呆
完國安,早該禁用啦。
真的很屌,讓我不禁在想openAI的人到
底在幹嘛
飯乞匪又要哭了
民禁黨:我看不到我看不到,一切都是幻
覺
我雖然不懂你在興奮什麼
不過我可以拿去問人工智能看看
我以為是開源底層繞過cuda 直接組合語言
硬幹 結果還在python import 還吹?
呃,底層實作都是用Cuda混合PTX(GPU組語)指令寫的,Cuda是方便有些函數不用自己造輪 子。人家也都說自己是用NV晶片了,只是美國不提供高階H100那人家用次等的晶片實作發現 晶片的計算能力還沒到極限結果弄出來比高階晶片還快。熟底層的一堆都馬用Cuda寫,Pyth on只是膠水語言給你們這些只會import的人用的。
所以deepseek 團隊,做了什麼了不起
封建社會百姓,不需要文化,笨一點,資
的事嗎
訊壅塞一點,比較好管理,傻逼
壓榨式函式庫 NVIDIA不喜歡這個
我看以後OpenAI 變年度獎項好了,這樣
對整個人類群體都好
我認為要吹就拿點硬功夫出來 別以為八卦
有錢就可以帶風向~
沒帶風向,只是覺得你蠻可憐的,你不是工程師根本看不懂人家的Code厲害在哪裡吧?本來 好東西就值得稱讚,哪天OpenAI全開源我也會發一篇。
有競爭是好事相互漏氣求進步
喔喔,屌爆了,人民要吃上飯了!
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:00:06
其實說真的要帶風向,沒人懂的東西
也帶不起來
青鳥不爽了
急了?
快把底層源碼開源出來讓我們笑一笑啊~
人家早就開源了,連Google跟GitHub都不會用還敢噓,笑你
https://github.com/deepseek-ai/DeepGEMM/tree/main
我使用經驗比chatgpt 更人性化
怎不翻年前怎麼吹 直接ptx硬幹底層 繞
過cuda 今天怎變成混合ptx cuda? 笑死~
現今有哪個工程師是完全自己從0開始造輪子的,人家技術報告也寫了在主要MoE通訊跟GEMM FP8的計算上他們才是用PTX寫的,可憐文盲是連英文閱讀都有問題?
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 09:14:38
不明覺厲
塔綠說是假的,你最好注意一下
輪子引擎都是別人家的 改個方向盤罷了
更正確的說法是人家把引擎拆了發現引擎的運作方式根本還沒到運作極限,所以改造了引擎 的運作方式後達到賽車引擎的效果。這個人家技術報告重頭到尾都是這樣說的,不過很多人 就文盲看不懂英文。不過即便是改造引擎也是屌炸了。當前美國很多矽谷巨頭都已經忘了最 原始的車庫精神了,至於台灣就不用想了連這種精神都沒有過。
一堆網軍進攻囉,只會掩耳盜鈴。從來
不正視事情本質,難怪民進黨貪污只要
喊抗中保台就能被原諒
這幾天的開源真的很猛,美國人財大氣粗
,但浪費錢的燒法我覺得在燒完前也不會
到AGI,呵呵!
還真以為人家都看不懂? 笑死~
拜託把底層PTX原碼開源 讓我們笑一笑~
年前不是吹繞過cuda? 林北就是要看他是
怎麼繞過cuda 自己用ptx硬幹~ 這才是硬
功夫~ 只會狂吹 ptx原碼到底生出來了沒?
都在GitHub裡面人家都幫你包起來了,你該不會看不懂吧?有夠可憐一直跳針耶,懶得回你 了。
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:17:55
雖然我不懂 但開源給推 可以刺激openAI
發展也給推deepsick實際應用效果不錯
對AI發展也不是什麼壞事 真的不需要看
到中國就噓文
嗯~ 很會躱喔~ 被挫到痛點了厚~ XDD
快換一個有硬功夫的出來吹啦~
我只是覺得跟文盲講話很痛苦而已,GitHub給你了也不會自己去看,幹嘛浪費時間跟你這種 人多講話。你連wgmma是什麼都不知道了,難怪給你GitHub也看不懂。更何況你根本就不是 想來討論的,幹嘛浪費口舌難不成要一行一行Code講給你聽?要這樣解釋給你聽那你跟文盲 有什麼不同?真的看懂麻煩你把討論品質提高,說出你閱讀完Code的看法吧,可憐蟲
但對民進黨跟青鳥來說實際上怎樣根本不
重要 反正數發部的AI>>>>>>>>>>deepsee
k就是了 然後我上面不小心打成deepsick
了XD
推討論
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:32:50
林北在寫cuda的時候 你還在媽媽10元來~
還嘴人看不懂~ 笑死人了~
喔,是喔。那你不會自己去寫一個,我自己用cutlass改的實驗才350TFlops,人家可以做到 700TFlops,那對你來說超過一定不難吧?套一句Linux Torvalds的話,多說無益,show me the code. 我等你開源 喔,我補充一下,你一開始還說人家是import Python,我都給你GitHub裡面人家明明就有P TX指令在.cuh裡面,你都說你很熟Cuda結果還看不懂鬼扯人家import Python。很熟CUDA? 我笑了
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:47:10※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 10:54:27
不知道今天會發什麼
我看他們GitHub issue有說在討論可能會放出fp8 wgrad back propagation 的部分,有點 期待週末又有東西可以讀讓自己進步了。
※ 編輯: sxy67230 (49.216.164.250 臺灣), 02/27/2025 11:15:03繞過cuda 實現中華民族偉大復興
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)![[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂 [爆卦] 數發部次長造謠Deepseek成本不只550萬鎂](https://i.imgur.com/jmMt7gnb.jpeg)
44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/9N2QFY1b.png)
40
Re: [閒聊] DeepSeek是不是真的很強?這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低19
Re: [討論] AI晶片這我來回答吧 AI晶片一般是指用來加速深度學習模型推理的晶片 如果是訓練通常還是利用Gpu 因為生態系比較成熟 那麼深度學習推理時間會耗在哪裡呢 通常就是convolution 或是Gemm20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AIX
Re: [新聞] 日本AI研究第一人這樣評價Deepseek我不懂ai 想問從無到有都自己做的話 那紅框裡的文字是正常的嗎? deepseek說自己是基於gpt 3.5或gpt 4的架構,並且核心模型是gpt 3.5/4![Re: [新聞] 日本AI研究第一人這樣評價Deepseek Re: [新聞] 日本AI研究第一人這樣評價Deepseek](https://i.imgur.com/Y6gj6VUb.jpeg)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
X
[討論] AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3 Jim Fan的每一句話都在戳喜歡搞神秘、賣期貨的OpenAI的肺管子。 實際上,業界有這種看法的人還不少。Abacus ai的CEO Bindu Reddy評價道:「這是開源AGI的勝利,一家來自中國的小型初創公司擊敗了所有人」。 UC Berkeley 教 授 Alex Dimakis也認為,DeepSeek現在已經處於領先位置,美國公司可能需要迎頭趕上了。 Aravind Srinivas 更是直言:「DeepSeek才配叫做OpenAI。」![[討論] AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3 [討論] AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3](https://i.imgur.com/vbXaWyib.jpeg)