PTT推薦

Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海

看板Stock標題Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海作者
LDPC
(Channel Coding)
時間推噓42 推:44 噓:2 →:23

相關文章可以參考這個
https://36kr.com/p/2927059579722630
比較有意義的是這邊
https://spectrum.ieee.org/new-inference-chips

前言
雖然大家都在討論AI要怎樣獲利 但AI產品要獲利前 有一個很重要的大前提
就是AI infrastructure得先成熟 也就是如何讓巨大數量消費者能在平台上(Large-scale)能得到平台上的服務 這個第一步關鍵就是Inference 上的成本 算力提升也意味單位
成本下降

自從LLM興起後(GenAI) 直到去年都比較是Training上的改進 像是軟體端有Deep-Speed
陸續整合到LLM/Transformer上 能把訓練數度提高百倍(意味成本降低百倍)
硬體端有A100->H100 (Transformer加速) HBM容量變大 等等此類
但針對AI商業化的Inference塊一直很不明朗

去年之前 我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰
今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地
這都意味以後的服務平台成本會下降 以現在GPT-4o 25.00元 你可以使用1M tokens
(註2) 想像一下 以後的成本可以降到100倍以上 同時也意味AI infra在走向產業落地

而第二個連結(ieee)就是開始在量化Inference的成本/能力 裡面用秒來計算能提供多少客戶請求(queries)

裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計 會成為將來主流
他能在LLM包山包海的下游任務(例如 文字總結 寫程式 醫療問題) 能動態選取專家
所以在MoE上表現好 對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4)
處理位元數降低好處會帶來運算速度增快 運算成本降低 但通常缺點就是效能會變很糟
(正確率下降 模型準度降低) 但NVDA弄出了一個4位元版本 且準度沒有太大犧牲
Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM )

第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏
就算校正GPU數量 狗家的TPU也是沒佔上風(註3)


處此之外 還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 )
可以看見當算力拉高高算力 高power 巨大集群 系統容易崩潰 就連老黃都無法避免
然而這在A100叢集 崩潰幾乎沒有出現過 這也意味眾家對手再拉高power 算力
軟體容易不穩定而崩潰 在這個AI軍備競賽下 時間永遠是個最重要的成本 這也意味
其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家)


最後一個總結 老黃的核心思想就是算力 (硬體+軟體+巨大cluster)
當年老黃在顯卡大戰說過 我每半年提高顯卡算力一倍 雖然一堆遊戲廠商
跟我說他家電動遊戲不需要這樣強顯卡 但我們不能照遊戲廠商需求來設計
我們給他們更好的顯卡 這樣他們才能設計更好的遊戲 我們可以創造需求
同樣 只要對先進算法有需求 算力就會存在 顯卡大戰所有的套路 我們會再重新走一次

而AI這個路線也是如此 因為Scaling Law已經講明 算力無窮止盡造就無窮智能
就算今天LLM技術落伍 只要有需求先進的算法 就會需要算力 Scaling Law就是摩爾定律CPU當年無限開發計算能力 有了軟體業 顯卡無限開發算力 有了電動產業
這也是為何Eric Schmidt說 政府用算力10的26次方flops當作監管條件


其他政治上的風險
https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水 土地 電力 當地居民抗議

--
最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花




--
註1:Deep Speed是微軟一個重大的軟體加速設計 這讓我想起Bill 之前說的
https://www.youtube.com/watch?v=jpfC7rzoX2A
"Microsoft putting tens of billions of dollars,into not just the back-end
capacitiy, "but re-engineering their application"

註2:Gen AI/LLM 把所有資訊都是用token計價 文字上來說2~3token等於一個英文word
You miss 100% of the shots you don't take 這句話大概等於11 tokens
在影像的話 如果以一張512x512像素來說 有一個不嚴謹的公式
total tokens = 85 + 170 * n, (n=512 在這邊)


註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來 我很好奇果家
會願意放棄這樣香的NV Inference架構 用狗家TPU

註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗
如果為真 我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等


※ 引述《enouch777 (雷)》之銘言:
: 原文標題:稱霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X
: ※請勿刪減原文標題
: 原文連結:
: https://bit.ly/4dIpmfq
: ※網址超過一行過長請用縮網址工具
: 發布時間:
: September 2, 2024 by 陳 冠榮
: ※請以原文網頁/報紙之發布時間為準
: 記者署名:September 2, 2024 by 陳 冠榮
: ※原文無記載者得留空
: 原文內容:
: 由產業人士和學術界組成的開放工程聯盟(MLCommons)自 2018 年推出 MLPerf 產業基準
: ,是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc
: e v4.1 提出測試資料,尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試,讓業界看出各
: 家晶片性能提升至什麼程度。
: MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容,像是 MLPerf 首次引進
: MoE(Mixture of Experts Models,混合專家模型)性能評估,特別採用開源 Mixtral 8×
: 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統,有些還是首次公開測試結
: 果,比方說 AMD MI300X、Google TPU v6e(Trillium)、英特爾 Granite Rapids、Unteth
: er AI speedAI 240 等,還有最受市場矚目的 NVIDIA B200。
: 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間,但 MLPerf Inference 4.1 測試
: 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo
: rmer 引擎和 FP4 Tensor 核心,處理 MLPerf 設定的 Llama 2 70B 模型,首次測試結果顯
: 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。
: 而在單一 B200、H200 及競爭對手 MI300X 的比較,MLPerf Inference v 4.1 測試結果運
: 用 Llama 2 70B 計算每秒生成 token 數,可看出 B200 的表現遙遙領先 H200 和 MI300X
: ,性能平均達到 H200 約 2.5 倍,更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過
: MI300X,換成下一代 B200 更是大勝。
: 值得關注的是,MI300X 規格如電晶體、HBM 等比起 H200 複雜,封裝複雜度更高,可推測
: AMD 這款 AI 晶片成本高昂,卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP
: erf 測試結果分析,MI300X 合理價格可能要比目前 H200 低約 30%。
: 換個角度來看,市場可能對於 NVIDIA 產品毛利高有些意見,一旦性能強大的 NVIDIA GPU
: 價格再低一點,恐無對手與之競爭。
: 心得/評論:
: https://i.imgur.com/DhaD9B1.jpeg

: 蘇媽24年初之前不是號稱贏 黃的H100
: 結果只在伯仲之間,還小輸
: 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了
: ※必需填寫滿30正體中文字,無意義者板規處分

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國)
PTT 網址
※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 03:10:16

FirePopcorn 09/03 03:14

Justisaac 09/03 03:18漲知識給推~

Justisaac 09/03 03:18雖然我覺得Intc連半個都稱不上XD

stuppi 09/03 03:20感謝LD老大分享~

Justisaac 09/03 03:22居然沒推到,補一下。

Haerin520 09/03 03:28推 已經歐印NVDL了 誰來69樓救我

pornpig32 09/03 03:30Nv能否持續領先

ETTom 09/03 03:49推 長知識了

a000000000 09/03 03:50我說過惹老黃這逼系列地位類似哀鳳4

a000000000 09/03 03:50出來94掃場 他把能想到的花招都用上惹

a000000000 09/03 03:50下一代的問題4會變成哀鳳五還哀鳳六 很難說

hyuying 09/03 03:50哇 謝LD!希望我也能Learning到飛黃騰達

a000000000 09/03 03:51沒新招就挨奉五 有新招就挨鳳六

※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 04:23:28

ookimoo 09/03 04:41ww3之後美國會徹底衰弱,中間會一堆國家沒有電!

sean667cd 09/03 04:44感謝 LD大分享 !

waitrop 09/03 04:49我該歐印nvdl嗎

MyDice 09/03 06:12感謝大大分享

ejnfu 09/03 06:13所以結論是all in NVDA對吧

pacino 09/03 06:23推 NVDA

TIPPK 09/03 06:31感謝分享

zoze 09/03 06:51相信老黃 財富自由

william7713 09/03 06:54台灣一直歡迎資料中心來蓋XDD 不知道在想啥

jerrychuang 09/03 06:5599MU

spike1215 09/03 06:56恐懼來自於算力不足,對吧。

peapriayod 09/03 06:58專業推

lusifa2007 09/03 07:01推 老黃就是強

darlost 09/03 07:06推一個

fdkevin 09/03 07:11結論歐印NVDA

askaa 09/03 07:38當大家都要買nvdl 跟全部人都在拉抬目標價

askaa 09/03 07:38你就知道 該如何處置手上的股票了

Chilloutt 09/03 07:47以token 練丹是可怕的商業模式,東西被重新估價

ppuuppu 09/03 07:54哇,一早看到L大的信心加持 感恩

Lipraxde 09/03 07:57Inference server 真正的需求等手機普遍都有能跑 L

Lipraxde 09/03 07:57LM 再看吧?雖然 edge 端能跑的 model 比 GPT-4o

Lipraxde 09/03 07:57廢,但一般使用需求其實也用不上多強的 LLM

ajkofqq 09/03 08:03

darkangel11909/03 08:03感謝專家分析與分享

f860506 09/03 08:08

aegis43210 09/03 08:09AI推論接下來各大CSP會用博通設計的ASIC來想辦法取

aegis43210 09/03 08:09代,到時看才知道鹿死誰手

utn875 09/03 08:17感謝提供基礎知識

NicholasTse309/03 08:19all in NVDL 一波退休!

sdbb 09/03 08:3999nvdl

Samurai 09/03 08:42ASIC取代別鬧惹,關鍵應該是明年的chatgpt5 ,LLM

Samurai 09/03 08:42進化才是終端市場爆發的時候

NotForever 09/03 08:43感謝分享

atpx 09/03 09:01推分享

zhi5566 09/03 09:15

darkangel11909/03 09:32蝦? 用 ASIC? 想太多了吧

bnn 09/03 09:45嚇你 甩你 磨你

cyshowen 09/03 09:57B系列GPU已經就 800mm2吃到光罩極限,要再增加電晶

cyshowen 09/03 09:57體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又

cyshowen 09/03 09:57因熱膨脹係數delay,至於老黃說什麼修光罩改善良率

cyshowen 09/03 09:57看起來是在解Critical Path積熱,但有沒有效可以繼

cyshowen 09/03 09:57續觀望。

cyshowen 09/03 09:59老黃要變下一代,GG CoWoS下一代(2027)可能有機會

cyshowen 09/03 09:59,熱膨脹問題還是跑不掉

ups 09/03 10:31專業推

strlen 09/03 10:49樓上真好心 幫輝達裡幾百萬千萬年薪工程師們擔心

SSglamr 09/03 11:19老黃救我

aegis43210 09/03 11:26AI推論當然用ASIC,用GPGPU很耗電好嗎?

aegis43210 09/03 11:27現在各家的NPU則是一種DSP,算是過渡方案

arcysaint 09/03 13:01已歐印

dragonjj 09/03 19:20謝謝分享,果家用狗家的我相信只先分散風險總不能

dragonjj 09/03 19:20單靠一家,能用大叢集的就兩家目前來看

grayeric 09/03 22:39今晚又電梯向下了

visadanny 09/04 02:03電梯向下跟老黃也沒關係啊 總經數據開這樣大家一起

visadanny 09/04 02:03