Re: [問卦] 有鄉民看過deepseek強在哪了嗎?
在領英上看到 講解的還行 看得懂就看吧 看不懂就算了
正文:
首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer:
1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程;
2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议
3)他们开发了自己的训练框架DualPipe,实现了16/64通道的流水线和专家(MOE)并行,极大改善了并行训练中的通信和计算冲突问题,解决了调度瓶颈。
最终,DeepSeek实现了在2048个H800上的集群训练。
其次,文章中大部分改进是渐进式的,而非革命性的:
1)上下文拓展实际上来自2023年文章YaRN;在MTP方面,最终DeepSeek V3只实现了N=1的MTP,也即比传统的GPT多预测一个词;
2)MOE所引入的Aux-Loss-Free Load Balancing技术,其实仅仅是在传统Expert的分配算法
3)DeepSeek MOE上的另一个革新是加入了“共享Expert”,并保证训练时对于每个Token,
4)其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent
5)利用自己在量化交易中的经验,创造性地将某些移动平均值(如Adam参数状态)存在CPU
当然,能够将如此多新的细节整合在一起,并获得一个几乎没有任何Loss Spike的平滑的训
最后,DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验
Deep Seek证明了:
1)推理能力可以通过RL获得,
2)推理能力可有效的被蒸馏到更小的模型上去。
虽然他们也同时观察到,蒸馏可能让小模型的输出变得更长,语言效率降低。此外,如果RL
总的来说,确实是一个非常好的Paper,证明了在极限的精度和优化条件下,训练一个600B?
但不至于颠覆硅谷,是一个非常好的阶段性进展
# 他的另一篇補充:
澄清一些DeepSeek里关于降本增效的概念:
首先,增加训练效率的是MOE,Mixture of Experts,也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中,仅选择1/k的参数激活进入下一个Block。
这导致对于每一个token来说,一个600B的模型仅需激活了接近37B的权重,相当于每一个token的训练可以节省约80%算力,大大提高了训练速度。
其次,增加推理速度的是MLA,Multihead Latent Attention,多头隐空间注意力机制。名字很玄乎,本质就是通过一些矩阵把注意力机制中最关键的KQV三个矩阵投影到更低维的空间(隐空间)中,以便存在缓存中。这样每次推理的时候就不需要重新计算
大大增加了推理速度
这两个技术都不能说是颠覆性的。但DeepSeek都做了自己的改进,而且调通了
这就是他最厉害的地方
这两个重要概念,在DeepSeek V3 paper的第一页就有
当然更关键的是fp8,也就是8位浮点量化运算。之前推文介绍过了。是fp8从训练所需空间上限决定了,这个模型可以用2048个H800训练。
每个fp8相比fp16能节约50%空间,相比fp32 节约75%。矩阵乘法的运算速度甚至是按平方提升。
# 小心得:
ds發布前幾天 組上老哥碩論預口 內容提到也做了fp8量化 然後只說效果不好就沒下文 結果人家大成功哈哈 不知道他口試那天會不會被電
-----
Sent from JPTT on my iPhone
--
彎腰撿鑽石的機會來了
8bit乘法就能跑了喔?
碩論那位老兄還好嗎
如果是用fp8那很不得了,這代表他根本不用太
高性能的gpu就能動作,對大陸來說這非常有利
20
首Po安安 欸 幹 一直說中國deepseek AI很會算,可以節省98%設備支出 不就是代表他的運算邏輯可以比起ChatGPT 還要更精煉? 所以到底運算邏輯上差在哪? 有鄉民看了嗎?3
不是有paper和一堆yt在講了 簡單說原本scaling law是單一model 成本是近似指數或n^2誇張上升 所以AI能力要變強 原本是要暴脹式的砸錢 deepseek open的paper說明了 用成千上百個小model集合推論 所以不用被大n懲罰 然後AI原本需要大量人工標註資料 現在R1做到不用預先標註資料了1
即便是這樣算力的需求還是向上吧 原本需要計算100次的東西新的模型只需要算1次 但人類肯定能找出100甚至10000倍的計算需求啊 就像當年電腦從1khz 到現在 5ghz且多核心以上 整天喊效能過剩,
25
[討論] 微軟New Bing的Ai 能力究竟有多強?前陣子微軟投資的open ai ,產出的ChatGPT火紅一時,而現在新版的Bing瀏覽器帶著Cha tGPT 3.5開放公測了。 根據首批試用者的使用表示,New Bing相比ChatGPT有更多的優點,比如ChatGPT的資料只 有到2021年,而New Bing資料是實時的。 且New Bing的性格更像人類,會用各種表情符號,語氣更像人類,擁有給類似於人類的情11
[提問] 關於防空系統/干擾的工作原理(簡體以及支語警告) 剛剛跟一個大陸人在DC上聊天 講到防空飛彈vs干擾的問題 (他主張J-16能壓制戰區...囧) 因為我說我懷疑干擾效果4
[問卦] 黨就像我們的孩子,要包容它鄙人用微信圖檔傳一篇前幾天很紅的長文 <客觀評價習近平>給一位祖國同胞看 她還是大學生 底下是我祖國朋友傳給我的部分訊息 习主席确实年纪大了2
[分享] 蔡贇說 : 对林丹对林丹,我更多的是期待 林丹从国家队退役的消息来的很突然,上上周我们还在厦门一起踢球,当时聊到近况,他 和我说“走一步看一步”,毕竟受疫情的影响,奥运会及相关赛事、队伍的训练安排、以 及自身的状态等都很难准确预知。当时我能感受到,他依然还想坚持,虽然参加了4届奥 运会在羽毛球运动员中已经很传奇了,但他依然还想书写新的传奇。3
[乳摸] 你好,我是水原一平。你好,我是水原一平。我没有盗取球员资金,我现在被道奇球团监禁在球员休息室,还需要 450万美元就能离开。你现在帮助我,我承诺当你的个人翻译,并传授你大谷翔平的个人训练 法,祝你成为下一个MLB之星。 —— 這是反串文2
[DeFi] BSC的merlin不玩了這個項目上線時我注意到 特點是APR很高,曾經有想過要入場 後來想想還是算了 下面是他們的公告: 梅林实验室停止运营1
Re: [實況] 星諜世家最新章 第五百九十一章 偽君子 時事梗出現了 “在舆论战场上,要做精准打击,绝不要全面开火。在大众的印象中, 一个人犯了错误,那么这个人全身都是错误,反之,在核心事实上被 冤枉,其它事情也会变得不真。”- 以下內容為gpt生成 ““””“ 教育摘要的《【英伟达】GTC 2024|黄仁勋2小时演讲精华版|六大亮点| Blackwell GPU | D GX B200 | NVL72 | cuLitho | GROOT | Omniverse Cloud》由[Video Summarizer](https: //chat.openai.com/g/g-GvcYCKPIH-video-summarizer-ai)提供:
X
德州AI陪伴玩家成长1975756793德州AI 陪伴玩家成长 德州AI 有需要请联系:1975756793@qq.com 在德州扑克的世界中,技术与策略的结合是成功的关键。随着人工智能(AI)技术的迅速 发展,德州AI的出现为玩家提供了全新的学习和成长方式。德州AI不仅是一个工具,更是 陪伴玩家成长的伙伴。- - 选择合适的平台:选择一个支持德州扑克的线上游戏平台,确保该平台具备良好的用 户体验和安全性。 - 集成德州AI:将德州AI集成到扑克俱乐部中,AI可以用于分析玩家的行为、提供策略建 议、监控游戏进程等。 - 制定规则和结构:设定俱乐部的游戏规则、比赛结构和奖励机制,确保所有玩家都能清
爆
[爆卦] 曹興誠第二篇聲明爆
[問卦] 選出一個你這輩子玩過最好玩的單機遊戲40
[問卦] 挖曹興誠隱私等等30億不捐了 你真的OK?43
[問卦] 罵中國卻玩中國女人是啥洨?42
[問卦] 幹中國小三有比較台派的說法嗎?26
[問卦] 零關稅紐西蘭鮮乳來了!為何台灣鮮奶還28
[問卦] 機械鍵盤 線性軸怎麼紅的?35
[問卦] 黑熊學員眾現在在想什麼23
[問卦] 蔡康永有什麼代表作爆
[爆卦] 曹董小三公司助力中國夢 中共黨媒認證21
[問卦] 急!新北租房這個價格如何?16
[問卦] 獨角獸那麼叫:紐乳來了,為何台乳仍天價?爆
[爆卦] 曹董進來,我幫你解套。56
Re: [新聞] 快訊/竹聯幫主治喪委員75人名單曝光!18
[問卦] 漢寶泡麵能撐多久17
[問卦] 便宜的紐西蘭鮮乳去哪買17
[問卦] 職場上真的會有功高震主的事情嗎?12
[問卦] polo衫要怎麼穿的帥?28
[問卦] 鄧肯是歷史最強大前鋒嗎?16
[問卦] 永康街為何很多觀光客??16
[問卦] 明朝末年的飢荒到底有多嚴重?15
[問卦] 想要長肌肉 健身是唯一解嗎?2
[問卦] 阿公過世,長孫不回來?13
[問卦] 來一客 鮮蝦口味 為什麼能稱霸市場多年14
[問卦] 有無哪吒1-哪吒之魔童降世 也好看的八卦?12
[問卦] 冷氣團在哪?笑死10
Re: [問卦] 為什麼現在國小老師常叫學生去看 身心科?12
[問卦] 黎明最紅的歌是什麼??12
Re: [新聞] 曹興誠遭爆公開不雅照 林智群:監督老百10
[問卦] 板橋的0號屎徒,找到了嗎?