[情報] NVDA的H100怎麼突然補上GB遞延的缺口
標題:
來源:
All-in Pod e206集
網址:
https://youtu.be/K2xfW3hgxb4?si=vso9TsDW09rVlaDK&t=2947
內文:
故事是這樣的
All-in Pod裡頭提到,這個故事是這樣的。
在Blackwell 被推遲的過去六個月裡,所有
等待Blackwell 並認為100K Hoppers這種規
模的GPU不可能搞成同一超級運算叢集的人
突然蜂擁而出,購買了許多Hoppers 來嘗試
自己實現這一目標。
因為他們發現Elon 和xAI已經解決了連接100K
的 H100 GPU 的問題進入超級運算叢集。
這基本上幫助 NVIDIA 解決了 Blackwell 延
遲可能造成的任何潛在損害。
這是為什麼Jensen在跟Brad Gersner的訪談
這麼推崇Elon跟xAI的速度
------------
以下是All-in Pod該片段的Claude翻譯與整理
講了很多xAI, Nvidia技術,以及AI的投資回報
率問題,很值得
「你想談談與Gavin的AI話題嗎?我認為接下來
一個很好的話題就是談談由Pod的朋友Elon
正在建造的超級電腦。根據報導,他現在擁有世
界上最大的超級電腦,而且他打算將其規
模擴大十倍。」
「是的,我認為這對AI來說是一個非常重要的時
刻,對整個AI在公共和私人市場的交易也
是如此。我相信每個收看你節目的人都非常了解
規模定律,而我們在訓練方面還沒有真正
測試過規模定律。如果你將用於訓練模型的計算
能力增加十倍,就會顯著提高模型的智能
和能力,而且通常會伴隨著一些新興特性的出現
,這些特性會與更高的智商一起出現。」
「沒有人認為可能製造超過25,000、也許30,000
或32,000個NVIDIA Hopper並使其保持連
貫性。這裡說的連貫性指的是在訓練集群中,簡
單來說,每個GPU都知道其他每個GPU在想
什麼。所以在那30,000個集群中的每個GPU都知
道其他29,999個在想什麼,而要實現這一
點需要大量的網路連接。」
「這是通過Infiniband實現的,對吧?」
「是的,通過Infiniband,而且我認為更重要的
是NVLink。雖然很多以太網也在使用,你
知道,永遠不要低估互聯網,永遠不要低估以太
網。就像如果你讀過Llama 3.1的技術論
文,你知道很多人對細鏈路以太網感到興奮。」
「但是讓我們為觀眾放慢節奏,Gavin,也許可以
解釋一下為什麼在GPU之間傳輸信息如此
重要。我們現在談論的有點深入技術了,每個人
都聽說過以太網,但是其他一些協議和移
動大量數據的方式,這是H20s、H100s特別擅長
的,它們每秒可以在處理器之間移動幾個
太字節的數據。」
「好的,讓我們這樣想像:在GPU的情況下,一
台伺服器看起來可能像是三個披薩盒疊在
一起,它有8個GPU。這8個GPU今天是用一種叫
做NVLink的技術連接在一起。你可以認為晶
片上的通信速度是最快的,晶片到記憶體次之
,然後是伺服器內部晶片到晶片的速度再次
之。」
「所以你把這些伺服器單元,其中GPU是通過一
種叫做NVSwitch的技術在伺服器上連接的
,然後用Infiniband或以太網將它們串聯成一
個巨大的集群。每個GPU必須與其他每個GPU
連接並知道它們在想什麼,它們需要保持連貫
性,需要某種程度上共享記憶體才能讓計算
工作,GPU需要一起工作來實現AI。」
「沒有人認為用今天的技術可能連接超過
30,000個這樣的設備。根據公開報導,Elon
他經常這樣做,深入思考這個問題,從第一
原理出發思考應該花多長時間,應該如何完
成,他想出了一種非常不同的數據中心設計
方式,他成功使超過100,000個GPU保持連貫
性。沒有人認為這是可能的。」
「如果我是最後一分鐘加入的,我會說去年
夏天有許多文章發表,說沒有人相信他能做
到,這都是炒作,都是荒謬的。記者們之所
以敢寫這些愚蠢的報導,是因為Meta和Google
以及其他公司的工程師們都說我們做不到,
他不可能做到。」
「他做到了,而且我認為世界真正相信這一點
是在Jensen做了那個播客,我想是跟
Gersner一起做的對吧?是的,是跟Gersner
,他說Elon做的事情是超人般的,沒有其他
人能做到。」
「事實上,你可以說Elon做到這一點在很多
方面拯救了NVIDIA度過了一個艱難的六個月
期,因為當Blackwell延遲時,每個等待
Blackwell並認為不可能讓100,000個Hopper
保持連貫的人都衝出去買了很多Hopper來嘗
試自己做到這一點。」
「現在我們要看看是否有其他人能做到,這真
的非常非常困難,沒有人認為這是可能的。
因此,Grock 3現在正在這個巨大的Colossus
超級電腦上訓練,這是世界上最大的,擁有
100,000個GPU,設在舊的Electrolux工廠,
他們在那裡投入了大量能源,大量天然氣。」
「是的,一個破舊的Electrolux工廠,周圍
有很多Mega Pack,而孟菲斯市完全支持這個
項目。」
「這對他們來說顯然很明智,但你從GP4以來
還沒有對訓練的規模定律進行過真正的測試
,而這將是第一次測試。如果訓練的規模定
律成立,Grock 3應該會在技術水平上有重大
突破。」
「從貝葉斯的角度來看,這是一個極其重要的
數據點。但如果那張卡不起作用 - 雖然我
認為它會起作用,我認為Grock 3會非常好 -
我應該說明我是消費者。」
「是的,你有參與,我的公司是X的投資者。」
「他們籌集了大量資金,很多來自中東,他
們據說要建造Colossus 2,目標是100萬個GPU
,是目前規模的10倍。Freeberg,關於我們
是否在這裡遇到瓶頸,已經有一些爭論,也許
你們其中一位可以向觀眾解釋這個瓶頸?」
「好的,我讓Gavin來談談這個瓶頸。我認為
另一個問題是,你知道,如果我們看到相對
於投資在訓練計算資源上的效能增長下降,
我們是否會開始看到系統架構運行方式的演變
?這意味著我們是否開始建立模型的模型,
這開始解決一個更高層次的架構,從而釋放新
的性能能力?」
「我要說的是,我們已經在建立模型的模型了
。我所知道的幾乎每個應用創業公司都在串
聯模型。你從一個便宜的模型開始,用更貴的
模型檢查便宜模型的工作,你知道,正在做
很多非常聰明的事情。每個AI應用公司都有
所謂的路由器,這樣如果另一個模型更適合手
頭的任務,他們就可以替換底層模型。」
「至於瓶頸是什麼,一直有一個大爭論說我們
在這些規模定律上遇到了瓶頸,規模定律正
在崩潰。我認為這非常愚蠢,因為沒有人建造
過超過32,000個H100的集群,沒有人知道。
這是一個荒謬的爭論,雖然雙方都有非常聰明
的人。」
「但是沒有新的數據,Grock 3是第一個新的
數據點,用來支持規模定律是否正在崩潰或
保持,因為沒有人認為你可以讓100,000個
Hopper保持連貫。」
「我認為根據公開報導,他們要擴展到
200,000個Hopper,然後下一個檢查點是100
萬。據報導他們將是Blackwell的第一批客戶,
但Grock 3是一個重要的指標,將解決我們是否遇
到瓶頸的問題。」
「David,你提出的另一個問題很有趣。順便
說一句,我們應該注意到現在有一個新的擴
展軸,有些人稱之為測試時間計算,有些人
稱之為推理擴展。基本上,這是這樣運作的:
你可以把這些模型想像成人類,你越是和這
些模型交談,就像你跟你17歲要去考SAT的孩
子說話一樣,它對你的表現就會越好。」
「比如說,David,如果我問你二加二等於多少
,四這個答案會立即在你腦海中閃現。但
如果我要你統一一個能夠解釋量子力學和相對
論物理學的大統一理論,你會思考更長時間
。」
「沒人知道答案。我們一直在給這些模型相同
的思考時間,不管問題有多複雜。我們現在
了解到,如果你讓它們針對更複雜的問題思考
更長時間 - 測試時間計算 - 你可以大幅提
高它們的智商。所以我們才剛開始發現這個新
的規模定律。」
「但我認為你提出的關於投資回報率的問題很
好,我很樂意討論。而且還有一個上下文視
窗的轉變正在進行,這也可以說創造了一個新
的潛在應用集擴展軸。所以模型網絡、思考
時間、上下文視窗,這些都是這些工具最終
能實現更好性能的多個維度。」
「是的,即使訓練的規模定律失效,我們還有
十年的創新在前面。」
「確實如此,根據我與相關人員的交談,雖然
我當然不像你那麼深入和熟悉,但有很多努
力和研究正在進行,重新設計各個部分的堆疊,
以減少能源消耗,減少驅動模型性能的每
種資源。基本上是重新設計架構,之前一段時
間都是非常暴力的方式,就是一直推進推進
,但現在當我們回過頭來開始重新設計和用更
有設計感的方式構建things時,我們獲得了
更好的性能,這方面還有很多工作要做。」
「這就是資本主義和運作良好的資本市場的偉
大之處之一,你有人專門研究上下文視窗。
對於不知道的人來說,令牌基本上可以理解為
一個詞,是一塊信息。你可以在與大型語言
模型的對話中輸入的令牌數量,有些模型有
很大的上下文視窗,有些較小。」
「但你基本上可以把整本書放入上下文視窗中
,然後開始針對模型提問,而這些的速度也
至關重要,因為如果你把書放進去,但要等10
分鐘才能得到答案,那就不實用了。」
「Gavin,你是OpenAI的投資者嗎?」
「哦,絕對不是。」
「你能否理論化說明Colossus的建設對OpenAI
目前的優勢有什麼影響?我們要多久才能趕
上xAI,你知道有多少會被顛覆,以及會多快
發生?」
「好吧,如果規模定律成立,據我所知,
Microsoft在恐慌之後最大的集群仍然比xAI
的集群小。如果你不相信這是可能的,你甚至
都不會去做。如果規模定律成立,Grock 3應該
會在1月或2月取得領先地位。」
「我確實認為很多人才已經離開了OpenAI。我
認為Mira Murati在融資期間辭職是一個非
常令人震驚的聲明,這是她表達對那裡發生的
事情不認同的唯一方式,而且可能還能拿到
她的錢。」
「所以我認為,如果規模定律成立,有很多理由
對Grock 3保持樂觀。但我認為,順便說
一下,關於能源問題,在2023年和2024年,人們
只是瘋狂地搶購GPU並把它們插上電源,
現在我們正在努力使它們更有效率,更深思熟慮
,重新設計它們。」
「現在H20的耗電量減少了50%,計算能力增加了
50%或翻倍,這取決於任務。它們的計算
能力稍微多一點,記憶體多很多,這真的很重要
。所以每單位有效計算的耗電效率要高得
多。」
「你認為是兩到三倍嗎?」
「H20可能沒有達到2倍,但是有不錯的增長,
H100是一個很好的晶片。」
「是的,是的,Blackwell就在眼前,那是一個
全新的架構,有全新的網路技術。」
「如果我們要推測的話,消費者的體驗會如何改
變?在使用面向前端的語言模型時,然後
開發人員在後端會看到什麼?你知道,如果這在
接下來的兩年內實現,他們能夠建造什麼?」
「現在,你口袋裡有一個智商大約115或110的朋
友,但他擁有世界上所有的知識,這就是
讓它變得驚人的原因。我認為這就像你口袋裡有
一個朋友,但他們有時會編造東西,再說
一次,他們很像人類,很多人類當他們不知道答
案時就會胡說。這些AI也會這樣做。」
「所以你口袋裡會有一個智商可能達到130的朋
友,他知道一切,擁有更新的世界知識,
更加紮根於事實的準確性。有趣的是,對於任
何涉及即時信息的問題,主要是體育和金融
,你知道,如果有股票下跌25%,問每個AI為
什麼股票下跌25%,通常Grock是知道答案的
那個。」
「是的,沒錯,Grock因為Twitter數據集,確實
知道世界上當下正在發生什麼。」
「好的,當我們在AI議題上總結時,關於David
提到的投資回報率問題呢?」
「是的,我發現這些爭論也很有趣。你知道,有
文章談論數千億美元的投資回報率問題,
這對我來說很奇怪,因為最大的GPU消費者都是
上市公司,他們每季度都會報告財務結果
,你可以計算一個叫做投資資本回報率的指標。」
「自從他們加大對GPU的資本支出以來,ROIC和
ROI就呈垂直上升趨勢。實際上,直到最近
一個季度才開始趨於平穩。到目前為止,AI的投
資回報率一直非常正面,這是事實。這是
一個很好的問題,特別是如果在兩三年後訓練一
個模型要花費1000億美元,這我認為是一
個現實的估計。」
「然而,這個說法的反論不是說可能有一點炒作?
你知道,也許人們正在試圖更精確地確
定和關聯投資回報率,我想這就是挑戰所在。你知
道,Meta在其整個企業中使用AI,你可
能會看到,比如Google,你可能會直接看到它讓廣
告更有效。」
「百分之百是的。」
「但對於其他人來說,比如說,它真的在發生嗎,
還是它只是一個玩具?我想這是我聽到
的批評。我不是說這是我的立場,但這是我聽到的
批評,就像人們真的從co-pilot獲得收益嗎?或者
這可能只是產品市場契合度的探索過程,因為蘋果
的AI筆記本電腦和一些通用LLM,人們可能覺得不值
這個錢,或者微軟的co-pilot可能不值這個錢。」
「是的,我個人使用co-pilot的體驗並不好,但我
要說,我相信你們兩個都遇到過,有很
多公司只是在基礎模型上做了一層薄薄的包裝,他
們瞬間就從零增長到4000萬,而且是有盈利的。」
「對他們的客戶來說,他們正在替代勞動力預算。
我相信你們也注意到了,但現在的創業
公司在相同規模下,僱用的人比三年前要少,你知
道,這很有趣,人們非常...我會說少了50%,這就
是AI的投資回報率。」
「就像你知道的,我參加了第一屆AWS re:Invent大
會,當時沒有大公司使用雲計算,全
都是創業公司。創業公司總是最先採用技術,所以
除了你在Google和Meta看到的AI投資回
報率,他們在整個業務中使用這個,你從創業公司看
到真實的AI投資回報率,就像他們在
其他人之前從雲計算中看到真實的投資回報率一樣。」
「這很瘋狂,但我不認為這些公司處於典型的囚徒
困境。他們都在不同程度上相信,誰先
達到人工超級智能,誰就會創造數十萬億或數百萬
億美元的價值,我認為他們可能是對的
。如果他們到達那裡,他們認為如果他們輸掉這場
競賽,他們的公司就面臨致命風險。所
以只要有一個人在投資,我認為他們都會投資,即
使投資回報率減緩,這是一個典型的囚
徒困境。」
--
西屏,你覺得呢?
太長看不完 你跟我說會漲還會跌就好
H100可以串聯 沒有人要買GB200了 Overbooking 2.0
公公崩
黃仁勳讚馬斯克像超人 19天打造「最強」AI訓練系統
這個?
直接說會漲還是會跌好不好
寫論文膩
反正現在發現能串更多h100來堆算力 就不急著一定要
用新的blackwell了
太長就丟給AI總結
散熱需求沒那麼急 然後BBU不需要了...XD
馬斯克說要買一億顆GPU 進度到哪了?
阿gb不能串連嗎?
鬼故事,沒人屌了啦
11/20財報不就體現了,Hopper 增長補
上了Blackwell的缺口,無魚蝦也好到這
種地步了
川普選上,馬得勢後,一堆人開始捧馬
h100 3231利多:?
如果樓樓上看完只得到一個很多人碰馬,拿你可能錯
過很多東西了,這一段訊息量超豐富
你投AI概念股一定要聽完的
我的意思當馬做的很正面的事時,很多人會去刻意捧
他,相對的不太敢去説他做不好的地方
結論:沒有AMD
特400早晚
99nvdl
推
仔細想了想,以後也許單卡能力也許不會是重點,反
而能串超級多張的集群運算能力才是。
你也可以指出錯誤跟他作不好的地方來討論咩0.0沒人
說不行吧
就拓樸學的進化呀,一個運算集群如果沒有良好的網路
拓樸學,串聯起來也沒辦法發揮效果
現在這種長文章我都叫AI 跟我說大意
光纖光通訊散熱電力還有Blackwell要上市了如果也能
跟hopper連結或許不用100萬顆
這方面最強的就思科、智邦、天弘、廣達、緯創這五家
,可以看出在網路拓樸學方面,臺灣非常強
我國早就有相關技術了,只是沒廠商用的到,現在是馬
斯克先來吃螃蟹,如果好吃,大家就會都來搞這種超大
集群
就是NVlink超級強吧
單卡能力一定是重點設計出來網路量級不一樣複雜度
不一樣但如果都能串連成起來絕對可怕
我覺得這一段聽起來很奇怪。xai可以做到其他玩家
尤其是臉書 應該也可以做到
規模定律已經躺平了,算力投入再多增長也微乎其微
西台灣的華為就是抄思科起家的,這方面也很強
規模定律是那個BUT XDDD
結論GPU還沒買完
老黃早就說了,買越多賺越多
直接講做多還是空好嗎?這邊都是AVAV
串接一堆的效益會愈來愈低耶,乙太的延遲這麼高…
不然NVLink和AVGO的價值怎麼出來的?
所以他們期待Blackwell的全新架構
以後是對照組吧,規模定律會不會在Blackwell推出後
定生死
我全部看完,做個總結,H100和GB200可以全部連結,
思考能力更強化,效率更高,所以會漲,需要更多的GP
U,NV短期目標價200
H100停產就會去買200了
謝謝分享
結論就是2025繼續漲
智商115完美連結看不到極限,智商130等老馬驗証
全篇拜讀完畢,看來除了死抱NV
TSLA也該從QQQ那邊再加更多倉位進
去!感謝分享
END
NVLink不是本來就這樣用嗎? 哪家CSP沒這樣幹嗎? 一
堆H100串起來換成一堆B200串起來算力變4倍 能效大概
也有2倍 單位算力成本只要半價 只要搶得到B200 哪可
能回去買H100
明年又會推新架構 加上scaling law持續有效 結論就
是要你年年買一直買 買越多省越多 買越多賺越多
這些大公司真的很瘋狂的在投入 真恐怖
馬斯克真那麼神?
如果xAI能在短時間打爆OpenAI,我覺
得all in 老馬風險都不能算大,反正看完
我覺得TSLA是該再從QQQ再拉些倉位
過去,靜待是否真的xAI做出什麼了不起
的東西。NV早已重倉,投資邏輯依然
不變
推
看完只覺得母體誕生日越來越近了
難怪馬丁克要買X,他有AI大數據最棒的來源
串連的數量限制打破後大家玩更大規模的軍備競賽
重點整理
感謝,您整理的很好,我看到最好的 請問您的prompt是怎麼下的?
所以是天網先誕生還是尤莉亞百式先誕生
Nvlink infinibind,其實都是短距離如果是資料中心
的連結還是要用光纖光通訊
更多的記憶體?更多的能源需求?
NVLINK原本的用法再更突破這樣
所以當初重點在CUDA啊 如果有人弄出新的串聯架構
2024年1月 META不就已經這樣講了?
祖克柏18日透過Instagram短影音平台Reels預告,Meta
未來的AI藍圖需打造大規模運算基礎建設,預計到了今
年底,這項基礎建設將內建350,000顆輝達H100 GPU。
ALAB這麼噴就因為這樣嗎
這種翻譯過難閱讀的文章我就丟給AI幫我摘要
多久前的東西 一堆人像發現新大陸...
串gb不就更強更省電
感謝89樓star大
老黃的刀法可以再現了
老馬最聰明,用H 100時間可以提早,而且可以沿用X
86 CPU,軟體不需要改,如果是G B 200 ,軟體不知
道什麼時候才能改完
LLM訓練時間是很重要考慮的一點,GB訓練比較快,但
要晚一年;H100訓練比較慢,但可以馬上開始,對於
後起之秀xAI來說,爭取時間提早訓練是更重要的
94
[請益] 解讀meta財測黯淡因為AI投資想請問一下今日META財測說目前還是繼續花大錢買鏟子挖礦坑 看起來會持續一段時間 很 明顯血被賣鏟子的吸乾了 還記得年初的時候有新聞寫Meta and Microsoft to buy AMD's new AI chips as alternat ive to NVIDIA 來源:87
[情報] 產生式 AI 大爆發 NVIDIA GPU 恐供不應求生成式 AI 大爆發,NVIDIA GPU 恐供不應求 來源 微軟 Bing 搜尋引擎整合 ChatGPT,加上其他生成式 AI 工具的需求攀升 都相當依賴人工智慧處理能力,正是 NVIDIA GPU 優勢所在 當科技公司利用 NVIDIA GPU 滿足增長的 AI 需求21
[閒聊] 串連數千個 Nvidia GPU,微軟打造 Chattechnews 串連數千個 Nvidia GPU,微軟打造 ChatGPT 的超級電腦 March 14, 2023 by 陳 冠榮 微軟斥資數億美元打造一台大型超級電腦,串連數千個 Nvidia GPU,為 OpenAI 的聊天機17
[情報] 花旗/摩根史丹利 兩家外資研究報告標題: 花旗/摩根史丹利 兩家外資研究報告 來源: Citi Research Morgan Stanley4
[情報] ChatGPT點燃AI熱情導致NVIDIA股價大漲52%最近ChatGPT各種刷屏,幾乎每天都是科技媒體網站的頭條 有人早在擔心自己的工作被ChatGPT取代,更多的人及公司是想辦法蹭上ChatGPT熱度 然而說到真正的受益者,NVIDIA這一波可是實實在在吃到了紅利。 ChatGPT火爆出圈之後,不少公司及投資者都加大了對生成式AI的投入 然而ChatGPT的成本不菲,訓練一次的費用在幾百萬到上千萬不等5
AWS 與 NVIDIA 宣布策略合作 針對 AI 推出超級電原文標題:AWS 與 NVIDIA 宣布策略合作 針對 AI 推出超級電腦基礎設施 原文連結: 發布時間:2023-11-29 14:26 記者署名:經濟日報 記者孫靖媛 原文內容:5
[閒聊] N卡每年推全新架構,遊戲產品同時進行玩家歡呼!輝達每年推全新架構,遊戲產品同時進行 眾所周知,GPU大廠輝達 (NVIDIA) 平均每兩年就會推出新 GPU 架構,如 2020 年 Amper e,2022 年 Hopper,2024 年 Blackwell,無論 AI 還遊戲卡都如此。不過人工智慧爆紅 ,輝達僅憑 AI 晶片就能短短一季斬獲 140 億美元利潤,且還在加速發展。4
Re: [請益] 憑良心說AI要怎麼賺錢?1. 投資AI相關股票 - 投資如Nvidia的GPU製造商股票,因GPU對訓練人工智能模型非常重要 - 投資雲端服務供應商如Amazon Web Services、Microsoft Azure等,他們提供人工智能雲端運算資源 - 投資人工智能軟件公司如Google、OpenAI等知名AI公司的股票 2. 利用Nvidia GPU提供加速運算服務
爆
[心得] 2024美股年報 感謝川總統與馬司令43
[請益] 幫爸媽分配退休金時,短債怎麼選更安全46
[情報] 1226 上市外資買賣超排行34
[情報] 1226 上市投信買賣超排行33
[情報] 113年12月26日 三大法人買賣金額統計表20
[心得] TSM和2330比較73
[請益] AVGO vs NVDAX
Re: [標的] 2609 陽明 板上一堆人吹=肅殺空12
[情報] 6191 精成科 重大訊息說明記者會內容16
Re: [心得] 4%法則熬不過股災8
[情報] 2348 海悅 達公布注意交易資訊標準9
[標的] 6449鈺邦 GB300供應鏈多8
[情報] 113/12/26 櫃買法人及個股買賣超5
Re: [心得] 4%法則熬不過股災32
Re: [請益] 套住00713的韭菜求解1
Re: [心得] 4%法則熬不過股災23
[心得] 2024期權奈米戶年報3
[標的] 6206.TW 飛捷 隱藏影像辨識多2
Re: [標的] 國泰數位支付服務00909