PTT推薦

Re: [問卦] 有鄉民看過deepseek強在哪了嗎?

看板Gossiping標題Re: [問卦] 有鄉民看過deepseek強在哪了嗎?作者
Kazetachinu
(辛普森ㄏㄏ )
時間推噓 4 推:4 噓:0 →:1

在領英上看到 講解的還行 看得懂就看吧 看不懂就算了

正文:

首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer:

1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程;

2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议

3)他们开发了自己的训练框架DualPipe,实现了16/64通道的流水线和专家(MOE)并行,极大改善了并行训练中的通信和计算冲突问题,解决了调度瓶颈。

最终,DeepSeek实现了在2048个H800上的集群训练。

其次,文章中大部分改进是渐进式的,而非革命性的:

1)上下文拓展实际上来自2023年文章YaRN;在MTP方面,最终DeepSeek V3只实现了N=1的MTP,也即比传统的GPT多预测一个词;

2)MOE所引入的Aux-Loss-Free Load Balancing技术,其实仅仅是在传统Expert的分配算法

3)DeepSeek MOE上的另一个革新是加入了“共享Expert”,并保证训练时对于每个Token,

4)其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent

5)利用自己在量化交易中的经验,创造性地将某些移动平均值(如Adam参数状态)存在CPU

当然,能够将如此多新的细节整合在一起,并获得一个几乎没有任何Loss Spike的平滑的训

最后,DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验

Deep Seek证明了:

1)推理能力可以通过RL获得,

2)推理能力可有效的被蒸馏到更小的模型上去。

虽然他们也同时观察到,蒸馏可能让小模型的输出变得更长,语言效率降低。此外,如果RL

总的来说,确实是一个非常好的Paper,证明了在极限的精度和优化条件下,训练一个600B?

但不至于颠覆硅谷,是一个非常好的阶段性进展

# 他的另一篇補充:

澄清一些DeepSeek里关于降本增效的概念:

首先,增加训练效率的是MOE,Mixture of Experts,也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中,仅选择1/k的参数激活进入下一个Block。

这导致对于每一个token来说,一个600B的模型仅需激活了接近37B的权重,相当于每一个token的训练可以节省约80%算力,大大提高了训练速度。

其次,增加推理速度的是MLA,Multihead Latent Attention,多头隐空间注意力机制。名字很玄乎,本质就是通过一些矩阵把注意力机制中最关键的KQV三个矩阵投影到更低维的空间(隐空间)中,以便存在缓存中。这样每次推理的时候就不需要重新计算

大大增加了推理速度

这两个技术都不能说是颠覆性的。但DeepSeek都做了自己的改进,而且调通了

这就是他最厉害的地方

这两个重要概念,在DeepSeek V3 paper的第一页就有

当然更关键的是fp8,也就是8位浮点量化运算。之前推文介绍过了。是fp8从训练所需空间上限决定了,这个模型可以用2048个H800训练。

每个fp8相比fp16能节约50%空间,相比fp32 节约75%。矩阵乘法的运算速度甚至是按平方提升。

# 連結:
https://reurl.cc/oV67e5


# 小心得:
ds發布前幾天 組上老哥碩論預口 內容提到也做了fp8量化 然後只說效果不好就沒下文 結果人家大成功哈哈 不知道他口試那天會不會被電
-----
Sent from JPTT on my iPhone

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 80.113.117.144 (荷蘭)
PTT 網址

twmacaron 01/28 01:18彎腰撿鑽石的機會來了

StylishTrade 01/28 01:188bit乘法就能跑了喔?

※ 編輯: Kazetachinu (80.113.117.144 荷蘭), 01/28/2025 01:20:37

uiorefd 01/28 01:36碩論那位老兄還好嗎

a1e 01/28 03:06如果是用fp8那很不得了,這代表他根本不用太

a1e 01/28 03:06高性能的gpu就能動作,對大陸來說這非常有利