Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海

LDPC 發表於 2024/9/3 上午3:04:53

看板Stock標題Re: [新聞] 稱霸 AI 推理性能，NVIDIA B200 晶片海作者

(Channel Coding)時間Sep 3 03:04:53 2024推噓42 推:44 噓:2 →:23

相關文章可以參考這個
https://36kr.com/p/2927059579722630
比較有意義的是這邊
https://spectrum.ieee.org/new-inference-chips

前言
雖然大家都在討論AI要怎樣獲利但AI產品要獲利前有一個很重要的大前提
就是AI infrastructure得先成熟也就是如何讓巨大數量消費者能在平台上(Large-scale)能得到平台上的服務這個第一步關鍵就是Inference 上的成本算力提升也意味單位
成本下降

自從LLM興起後(GenAI) 直到去年都比較是Training上的改進像是軟體端有Deep-Speed
陸續整合到LLM/Transformer上能把訓練數度提高百倍(意味成本降低百倍)
硬體端有A100->H100 (Transformer加速) HBM容量變大等等此類
但針對AI商業化的Inference塊一直很不明朗

去年之前我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰
今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地
這都意味以後的服務平台成本會下降以現在GPT-4o 25.00元你可以使用1M tokens
(註2) 想像一下以後的成本可以降到100倍以上同時也意味AI infra在走向產業落地

而第二個連結(ieee)就是開始在量化Inference的成本/能力裡面用秒來計算能提供多少客戶請求(queries)

裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計會成為將來主流
他能在LLM包山包海的下游任務(例如文字總結寫程式醫療問題) 能動態選取專家
所以在MoE上表現好對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4)
處理位元數降低好處會帶來運算速度增快運算成本降低但通常缺點就是效能會變很糟
(正確率下降模型準度降低) 但NVDA弄出了一個4位元版本且準度沒有太大犧牲
Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM )

第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏
就算校正GPU數量狗家的TPU也是沒佔上風(註3)

處此之外還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 )
可以看見當算力拉高高算力高power 巨大集群系統容易崩潰就連老黃都無法避免
然而這在A100叢集崩潰幾乎沒有出現過這也意味眾家對手再拉高power 算力
軟體容易不穩定而崩潰在這個AI軍備競賽下時間永遠是個最重要的成本這也意味
其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家)

最後一個總結老黃的核心思想就是算力 (硬體+軟體+巨大cluster)
當年老黃在顯卡大戰說過我每半年提高顯卡算力一倍雖然一堆遊戲廠商
跟我說他家電動遊戲不需要這樣強顯卡但我們不能照遊戲廠商需求來設計
我們給他們更好的顯卡這樣他們才能設計更好的遊戲我們可以創造需求
同樣只要對先進算法有需求算力就會存在顯卡大戰所有的套路我們會再重新走一次

而AI這個路線也是如此因為Scaling Law已經講明算力無窮止盡造就無窮智能
就算今天LLM技術落伍只要有需求先進的算法就會需要算力 Scaling Law就是摩爾定律CPU當年無限開發計算能力有了軟體業顯卡無限開發算力有了電動產業
這也是為何Eric Schmidt說政府用算力10的26次方flops當作監管條件

其他政治上的風險
https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水土地電力當地居民抗議

--
最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花

--
註1:Deep Speed是微軟一個重大的軟體加速設計這讓我想起Bill 之前說的
https://www.youtube.com/watch?v=jpfC7rzoX2A
"Microsoft putting tens of billions of dollars,into not just the back-end
capacitiy, "but re-engineering their application"

註2:Gen AI/LLM 把所有資訊都是用token計價文字上來說2~3token等於一個英文word
You miss 100% of the shots you don't take 這句話大概等於11 tokens
在影像的話如果以一張512x512像素來說有一個不嚴謹的公式
total tokens = 85 + 170 * n, (n=512 在這邊)

註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來我很好奇果家
會願意放棄這樣香的NV Inference架構用狗家TPU

註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗
如果為真我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等

※ 引述《enouch777 (雷)》之銘言：
: 原文標題：稱霸 AI 推理性能，NVIDIA B200 晶片海放 AMD MI300X
: ※請勿刪減原文標題
: 原文連結：
: https://bit.ly/4dIpmfq
: ※網址超過一行過長請用縮網址工具
: 發布時間：
: September 2, 2024 by 陳冠榮
: ※請以原文網頁/報紙之發布時間為準
: 記者署名：September 2, 2024 by 陳冠榮
: ※原文無記載者得留空
: 原文內容：
: 由產業人士和學術界組成的開放工程聯盟（MLCommons）自 2018 年推出 MLPerf 產業基準
: ，是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc
: e v4.1 提出測試資料，尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試，讓業界看出各
: 家晶片性能提升至什麼程度。
: MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容，像是 MLPerf 首次引進
: MoE（Mixture of Experts Models，混合專家模型）性能評估，特別採用開源 Mixtral 8×
: 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統，有些還是首次公開測試結
: 果，比方說 AMD MI300X、Google TPU v6e（Trillium）、英特爾 Granite Rapids、Unteth
: er AI speedAI 240 等，還有最受市場矚目的 NVIDIA B200。
: 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間，但 MLPerf Inference 4.1 測試
: 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo
: rmer 引擎和 FP4 Tensor 核心，處理 MLPerf 設定的 Llama 2 70B 模型，首次測試結果顯
: 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。
: 而在單一 B200、H200 及競爭對手 MI300X 的比較，MLPerf Inference v 4.1 測試結果運
: 用 Llama 2 70B 計算每秒生成 token 數，可看出 B200 的表現遙遙領先 H200 和 MI300X
: ，性能平均達到 H200 約 2.5 倍，更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過
: MI300X，換成下一代 B200 更是大勝。
: 值得關注的是，MI300X 規格如電晶體、HBM 等比起 H200 複雜，封裝複雜度更高，可推測
: AMD 這款 AI 晶片成本高昂，卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP
: erf 測試結果分析，MI300X 合理價格可能要比目前 H200 低約 30%。
: 換個角度來看，市場可能對於 NVIDIA 產品毛利高有些意見，一旦性能強大的 NVIDIA GPU
: 價格再低一點，恐無對手與之競爭。
: 心得/評論：
: https://i.imgur.com/DhaD9B1.jpeg

: 蘇媽24年初之前不是號稱贏黃的H100
: 結果只在伯仲之間，還小輸
: 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了
: ※必需填寫滿30正體中文字，無意義者板規處分

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國)

※ PTT 網址

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 03:10:16

推

FirePopcorn 09/03 03:14推

→

Justisaac 09/03 03:18漲知識給推~

→

Justisaac 09/03 03:18雖然我覺得Intc連半個都稱不上XD

推

stuppi 09/03 03:20感謝LD老大分享~

推

Justisaac 09/03 03:22居然沒推到，補一下。

推

Haerin520 09/03 03:28推已經歐印NVDL了誰來69樓救我

推

pornpig32 09/03 03:30Nv能否持續領先

推

ETTom 09/03 03:49推長知識了

噓

a000000000 09/03 03:50我說過惹老黃這逼系列地位類似哀鳳4

→

a000000000 09/03 03:50出來94掃場他把能想到的花招都用上惹

→

a000000000 09/03 03:50下一代的問題4會變成哀鳳五還哀鳳六很難說

推

hyuying 09/03 03:50哇謝LD！希望我也能Learning到飛黃騰達

→

a000000000 09/03 03:51沒新招就挨奉五有新招就挨鳳六

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 04:23:28

→

ookimoo 09/03 04:41ww3之後美國會徹底衰弱，中間會一堆國家沒有電！

推

sean667cd 09/03 04:44感謝 LD大分享！

推

waitrop 09/03 04:49我該歐印nvdl嗎

推

MyDice 09/03 06:12感謝大大分享

推

ejnfu 09/03 06:13所以結論是all in NVDA對吧

推

pacino 09/03 06:23推 NVDA

推

TIPPK 09/03 06:31感謝分享

推

zoze 09/03 06:51相信老黃財富自由

推

william7713 09/03 06:54台灣一直歡迎資料中心來蓋XDD 不知道在想啥

推

jerrychuang 09/03 06:5599MU

推

spike1215 09/03 06:56恐懼來自於算力不足，對吧。

推

peapriayod 09/03 06:58專業推

推

lusifa2007 09/03 07:01推老黃就是強

推

darlost 09/03 07:06推一個

推

fdkevin 09/03 07:11結論歐印NVDA

噓

askaa 09/03 07:38當大家都要買nvdl 跟全部人都在拉抬目標價

→

askaa 09/03 07:38你就知道該如何處置手上的股票了

推

Chilloutt 09/03 07:47以token 練丹是可怕的商業模式，東西被重新估價

推

ppuuppu 09/03 07:54哇，一早看到L大的信心加持感恩

推

Lipraxde 09/03 07:57Inference server 真正的需求等手機普遍都有能跑 L

→

Lipraxde 09/03 07:57LM 再看吧？雖然 edge 端能跑的 model 比 GPT-4o

→

Lipraxde 09/03 07:57廢，但一般使用需求其實也用不上多強的 LLM

推

ajkofqq 09/03 08:03好

推

darkangel11909/03 08:03感謝專家分析與分享

推

f860506 09/03 08:08推

推

aegis43210 09/03 08:09AI推論接下來各大CSP會用博通設計的ASIC來想辦法取

→

aegis43210 09/03 08:09代，到時看才知道鹿死誰手

推

utn875 09/03 08:17感謝提供基礎知識

推

NicholasTse309/03 08:19all in NVDL 一波退休！

推

sdbb 09/03 08:3999nvdl

推

sdbb 09/03 08:42https://i.imgur.com/HltGuLS.jpg

推

Samurai 09/03 08:42ASIC取代別鬧惹，關鍵應該是明年的chatgpt5 ，LLM

→

Samurai 09/03 08:42進化才是終端市場爆發的時候

推

NotForever 09/03 08:43感謝分享

推

atpx 09/03 09:01推分享

推

zhi5566 09/03 09:15推

推

darkangel11909/03 09:32蝦? 用 ASIC? 想太多了吧

→

bnn 09/03 09:45嚇你甩你磨你

→

cyshowen 09/03 09:57B系列GPU已經就 800mm2吃到光罩極限，要再增加電晶

→

cyshowen 09/03 09:57體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又

→

cyshowen 09/03 09:57因熱膨脹係數delay，至於老黃說什麼修光罩改善良率

→

cyshowen 09/03 09:57看起來是在解Critical Path積熱，但有沒有效可以繼

→

cyshowen 09/03 09:57續觀望。

→

cyshowen 09/03 09:59老黃要變下一代，GG CoWoS下一代(2027)可能有機會

→

cyshowen 09/03 09:59，熱膨脹問題還是跑不掉

推

ups 09/03 10:31專業推

推

strlen 09/03 10:49樓上真好心幫輝達裡幾百萬千萬年薪工程師們擔心

推

SSglamr 09/03 11:19老黃救我

推

aegis43210 09/03 11:26AI推論當然用ASIC，用GPGPU很耗電好嗎?

→

aegis43210 09/03 11:27現在各家的NPU則是一種DSP，算是過渡方案

推

arcysaint 09/03 13:01已歐印

推

dragonjj 09/03 19:20謝謝分享，果家用狗家的我相信只先分散風險總不能

→

dragonjj 09/03 19:20單靠一家，能用大叢集的就兩家目前來看

推

grayeric 09/03 22:39今晚又電梯向下了

→

visadanny 09/04 02:03電梯向下跟老黃也沒關係啊總經數據開這樣大家一起

→

visadanny 09/04 02:03爆

其他人也閱讀了

PTT 熱門相關