PTT推薦

Re: [標的] NVDA 長期無腦多

看板Stock標題Re: [標的] NVDA 長期無腦多作者
LDPC
(Channel Coding)
時間推噓 推:0 噓:0 →:0

不知道為捨抹會講到邊緣運算啦QQ 不過老黃這波佈局就是替兩三年後落地場景客製化晶片

一般落地場景Inference(AI推理)的工程順序如下
拿一個PreTrain萬用大模型 用特殊資料FineTune 然後Deploy (Inference)
以LLaMA 7B模型為例 假設我今天要做一個醫療問診小幫手的AI 當我用一堆醫療資料
FineTune這個LLaMA 65B模型後達到我需求 (到此為此都會在Cuda生態圈做)

接下來就是所謂的Deploy (AI推理) 就是把模型每個unit的參數讀出
然後根據你晶片特性去寫c code 比方說模型架構有一堆Transformer 那就是把每層
Transformer係數讀出 接者如果特製晶片有特殊Transformer API function 那你就是直接call 當然你也可以自己用c 寫矩陣運算土工刻出Transformer但通常這樣很沒效率
當然也有一些直接轉c code工具 像是onnx 此款搭配pytorch 非常好用 但你也會遇到
萬一底層晶片沒有支援特殊library 比方說你有一個ReLu6層 但晶片只支援Relu
那你就自己要手改或做些換算

而用特制化晶片好就處 就是省電 速度快效率高 缺點就是不能再改架構 但模型一但做好只要能大量跑商業化 通常大前提是改動也不會是在這樣頻繁

大模型是比較難推廣到edge端 主要是openAI提出一個定律叫做scaling law 意思就是
同樣模型架構設計 當你模型無限增加size時 他在突破某模型參數量會突然有類似AGI功能能學會數據上的泛化 而低於這個模型參數臨界值 模型無法學會數據泛化 每個模型設計的臨界值都不一樣 在追求驚人的AI效果 堆架構狂增加模型參數突破臨界值變成主流方法常見的臨界點數值都是動輒xxB起跳 這換算需要的記憶體大小就是100G以上
運算則是需要TFLOPS

所以算力為王會繼續走一陣子 只是戰場也會慢慢轉移到Inference這端
https://www.aili.com.tw/message2_detail/112.htm (表二有各種晶片在AI推理效果)

EdgeAI也會是一另外一個戰場 不過Google在軟體上有通吃此雲端和本底端edge solution我自己是認為在Edge端 應該最終會走混搭的本地端模型和雲端模型併算用

且老黃手上還有一個的NVlink/NVSwitch這技術 (NVLink4 100G PAM4 serdes)
目前只有B和M有在做 但B和M有的 老黃也都有



※ 引述《LDPC (Channel Coding)》之銘言:
: 借用這個標題吧 很久以前 我忘記是在哪篇看到的老美的如何推薦推介買老黃股票的原因: 其中有一個點是 NVDA是殺手 擅長幹掉無數公司(e.g. 3dfx,ati)
: 然後這週末個小道消息 老黃瞄準30B市場打算做客製化晶片佈局....也就是要跟AVGO搶市場了
: http://tinyurl.com/y6e2ktpj 這也是可能為以後瞄準Inference的可能市場一個佈局了

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國)
PTT 網址