Re: [標的] NVDA 長期無腦多

LDPC 發表於 2024/2/13 上午12:26:45

看板Stock標題Re: [標的] NVDA 長期無腦多作者

(Channel Coding)時間Feb 13 00:26:45 2024推噓推:0 噓:0 →:0

不知道為捨抹會講到邊緣運算啦QQ 不過老黃這波佈局就是替兩三年後落地場景客製化晶片

一般落地場景Inference(AI推理)的工程順序如下
拿一個PreTrain萬用大模型用特殊資料FineTune 然後Deploy (Inference)
以LLaMA 7B模型為例假設我今天要做一個醫療問診小幫手的AI 當我用一堆醫療資料
FineTune這個LLaMA 65B模型後達到我需求 (到此為此都會在Cuda生態圈做)

接下來就是所謂的Deploy (AI推理) 就是把模型每個unit的參數讀出
然後根據你晶片特性去寫c code 比方說模型架構有一堆Transformer 那就是把每層
Transformer係數讀出接者如果特製晶片有特殊Transformer API function 那你就是直接call 當然你也可以自己用c 寫矩陣運算土工刻出Transformer但通常這樣很沒效率
當然也有一些直接轉c code工具像是onnx 此款搭配pytorch 非常好用但你也會遇到
萬一底層晶片沒有支援特殊library 比方說你有一個ReLu6層但晶片只支援Relu
那你就自己要手改或做些換算

而用特制化晶片好就處就是省電速度快效率高缺點就是不能再改架構但模型一但做好只要能大量跑商業化通常大前提是改動也不會是在這樣頻繁

大模型是比較難推廣到edge端主要是openAI提出一個定律叫做scaling law 意思就是
同樣模型架構設計當你模型無限增加size時他在突破某模型參數量會突然有類似AGI功能能學會數據上的泛化而低於這個模型參數臨界值模型無法學會數據泛化每個模型設計的臨界值都不一樣在追求驚人的AI效果堆架構狂增加模型參數突破臨界值變成主流方法常見的臨界點數值都是動輒xxB起跳這換算需要的記憶體大小就是100G以上
運算則是需要TFLOPS

所以算力為王會繼續走一陣子只是戰場也會慢慢轉移到Inference這端
https://www.aili.com.tw/message2_detail/112.htm (表二有各種晶片在AI推理效果)

EdgeAI也會是一另外一個戰場不過Google在軟體上有通吃此雲端和本底端edge solution我自己是認為在Edge端應該最終會走混搭的本地端模型和雲端模型併算用

且老黃手上還有一個的NVlink/NVSwitch這技術 (NVLink4 100G PAM4 serdes)
目前只有B和M有在做但B和M有的老黃也都有

※ 引述《LDPC (Channel Coding)》之銘言：
: 借用這個標題吧很久以前我忘記是在哪篇看到的老美的如何推薦推介買老黃股票的原因: 其中有一個點是 NVDA是殺手擅長幹掉無數公司(e.g. 3dfx,ati)
: 然後這週末個小道消息老黃瞄準30B市場打算做客製化晶片佈局....也就是要跟AVGO搶市場了
: http://tinyurl.com/y6e2ktpj 這也是可能為以後瞄準Inference的可能市場一個佈局了
--

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國)

※ PTT 網址

同系列文章

[標的] NVDA 長期無腦多

其他人也閱讀了

PTT 熱門相關