Re: [閒聊] 現在橫空出世的NPU
※ 引述《wahaha99 (我討厭人類)》之銘言:
: 以這個評測為例, 讓我有點霧裡看花, 不是很能明白:
: Intel Ultra 7 155H
: CPU分數 67
: GPU分數 413
: NPU分數 282
: 嗯....這NPU看起來沒比較厲害?
: 所以我的疑問就是:
: 1. NPU 表現還不如 GPU, 這也許可以理解為最佳化還沒到位,
: 不過即使未來能小贏, 為什麼不拿去做GPU就算了, 還可以增加3D性能。
npu/matrix/tensor其實不能增加傳統的3d性能。增加的是dlss/ray tracing的性能。
但這是個好問題,現在的情況,npu(matrix)如果併入gpu或cpu其實是更好的選擇。
: 2. NPU 能執行通用計算嗎? 如果可以, NPU 只是神經網路運算特化
: 的 GPU?
npu是matrix(systolic array)特異化的超簡易cpu。不適合通用計算
: 3. 如何調用 NPU? 是視為 OpenCL / DirectML 裝置?
: 還是又整出新的方法跟API了?
: 又或只是在GPU下的子集? (調用核顯運算時指示調用NPU?)
目前就是另一個黑盒子運算機,不需要opencl/directml,可以直接從程式使用,如果os有開放出來。
gpu/avx,是simd,是1d array的運算
npu/amx/tensor是systolic array,是2d array的運算。
simd也可以matrix運算,但比較沒有效率,因為要一直切換資料。
gpu+tensor/cpu+amx,就是把傳統的1d暫存器擴張到2d暫存器(systolic array),把切換資料的時間省下來。效率可以2x~8x或更多。
現在影像的ai運用,npu是足夠的,這是當初設計npu的目的。就算是現在很紅的diffusion model,NPU也是很適合的,因為不需要即時反應。
現在的問題是,LLM(Large language Model),現在ai炒作其實就是講這個。
LLM吃記憶體吃記憶體頻寬吃運算能力。只用npu來暴力運算是行不通的。
N家的inference optimization文章
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/
https://reurl.cc/37Nd7V
基本上,LLM的資料其實很鬆散,但很龐大,所以必須要想辦法做各種記憶體的規劃跟重組。
一個壓縮過,重組記憶體排列方法的Model,可以有10x以上的效能提昇,以後可能可以有100x的 提昇。
一個很有趣的例子,intel剛買下的Numenta
https://technews.tw/2023/10/16/intel-xeon-numenta/
他把Sparse的matrix重組成Compressed Sparse Row,然後運用cpu能力去解開到AMX再來運算,就達到10x~20x的提昇。
這個再加各種caching跟attention的優化,100x提昇是很有可能達到的。
趨勢來講,ai還在演變,cpu+amx或gpu+tensor還是會是短期發展的趨勢。
--
推 專業見解說明
推
推
推
推 以免人家說我看不懂
推 應該沒人發現我看不懂
推 這篇難得沒吹intel
所以GPU/NPU都還是疏鬆矩陣整個吞下
去硬幹? 囧
他應該是針對LLM而已 attention本
來就是sparse matrix
不過這東西看起來就只是要做user端
而已吧,有要取代gpu的意思嗎
現在attention後期的研究幾乎就是
想辦法不要整個matrix吞下去
mtl跑ai 我bug還在解 嗚嗚嗚
他提到的compressed sparse matrix
應該就是其中一種,反正各種方式
想辦法不要算那個大矩陣的演算法一
堆
大矩陣一定要算的,現在就是合併運算不要
來回重複讀取大矩陣。另一個方向就是改變
讀取的方式,更有效利用L2/L3快取。最後就
model pruning是未來演算法及設計的重
要一環,但現在不是重點
是看運算法有沒突破,但這比較難
反正後期就是想辦法不算那個大矩陣
,幾乎也沒什麼特別突出的想法,每
個都在簡化attention matrix的計算
不過他提的npu好像跟你想像的不一
樣,他應該是用在user端吧
user端不會遇到記憶體問題啦,你要
幾百張gpu做真‘’L"LM才要考量記
憶體頻寬
推專業說明 感謝
太專業 看不太懂
太專業了只能看戲
不過突然有個想法 FPGA能拿來搞AI嗎
長見識
推
會不會到最後變回加速卡的形式, 用
PCIE介面去擴充?
好奇NPU算圖的做到什麼程度? 一樣吃Vram
a87?
@bw212 我不知道技術上怎樣不過XDNA是X
ilinx整合進來的結果
看到systolic 頭好痛 想到用verilog
硬幹systolic MAC的作業 有夠折騰
推
推
推
好專業
FPGA當然能做類神經網路,只要模型放得
進去
3D投影也是矩陣乘法,為什麼NPU不能增
加性能?
應該說矩陣乘法用到的地方這麼多,怎麼
在遊戲上除了深度學習就沒聽過其他應用
頂點的計算量不大啊
推 其實應該還是會直接交給CPU或GPU來做
原來如此 搞懂了 簡單來說遊戲玩家也用不到
這東西就對了
我看得懂,推推XD
我一直不懂 neural rendering系列
這麼猛怎麼會沒人討論 遊戲應該用
很大啊 npu也要能加速才是
感謝說明
先推
頂點運算式vector x matrix,是1d。
nn是matrix x matrix,2d。所以tensor 沒
有幫助在3d上。
你說的neural rendering是Nerfs吧。Image
Based rendering有很久的歷史,但IBR有它
的問題,產生3d model還不錯,真要即時3d
就有很多問題要克服。我個人覺得NeRF,SDF
只適合生成式3d model,再轉meshes來使用
牙膏對AI的做法就是從小到大 NPU CPU GP
U都幹阿
然後靠血汗的工程師去One API優化 依據
硬體去調用CP值高的方案 或者全部一起
叫起來靠人海打贏
如果未來有需要圖像辨識的遊戲,那CNN
自然用的上
所以目前NPU對一般人有什麼用?給我一個
買的理由
推推
你可以看上一篇 一堆人說很有用
上一篇全都是幻想未來的應用,我比較想
問的是現在能幹嘛、為什麼要買?
未來我等應用出來再直接買更強更成熟的
新CPU不就好了
推
你現在不買 那就無法形成基礎
沒有基礎 軟體就不會投入
軟體不投入 你就會問你為什麼要買
這是個雞生蛋問題
所以不要廢話 不甘願買電腦的錢有5%成本
是花在這 你就去買沒有NPU的機種就是
買啥硬體,買股票啦
投資人看到這個大餅就會很開心
和消費者沒啥關係的事
等可以商用的那天再來看需求選購就好
推
有趣的是intel發表core ultra的時候
故意不提14代的raptor refresh
而且core ultra對比是P系列處理器
所以日後準備拆開來談的可能性很高
放到遊戲深度學習?這麼自虐XD。
簡單說現在NPU頂多修個圖,多出來的
都是溢價,消費者現階段不該為了它
買單,只注意傳統性能就好
跟dlss同理
無論如何都會bundle給消費者
未來內建NPU會變常態 跟手機SOC一樣
硬體生態系建立起來 更多軟體才會跟上
1個點投影是[4×4]×[4×1]
那你4個點一起算不就[4×4]×[4×4]了
我是假設NPU和tensor core類似
那NPU對一般人的用處就是加速矩陣乘法
你在算大型矩陣時就會很有感了
vertex shader 只輸出 4x1 啊
推專業
arm陣營搞NPU已經好幾年了,x86現在才跟
上,腳步是慢了點
那你4個點一起算不就[4×4]×[4×4]了
↑ 看來不是資工底的
我搞錯推文意思 請忽略上面推文
雞生蛋這種鳥答案都講得出口 笑爛
我一台車都能買150顆14900K了
不是捨不得花 就想知道有什麼現有功能
你的解釋就是目前完全無用效能還倒抽
聽起來像是在某類計算上加速好支援AI的演
算...只是知道AI的那些演算還找不到更重
量級的應用嗎?
推
systolic array第一次聽到,其他都有聽過
對未來的 Intel AMX 指令集效能有所期待
NPU 是特化的MAC電路,僅能加速特定工作,
且需額外的driver/lib/framework才能調用
但 throughput/能耗較好。
AMX 是CPU指令集,整合進通用編譯器裡,
可應用的範圍更大,但throughput/能耗效
率沒NPU好。
Intel AMX 來的確實有點晚,Arm 早就在做
(乾… Ethos-U core driver 差點…
在 Non-Secure 點不起來/port 失敗挫賽)
感謝科普
有編譯器支援讓這類計算更方便使用更有機
會發現實在的應用...還是要大廠推才比較
好...
17
Re: [閒聊] 關於30系列的cuda core?: 前幾天NV公佈了詳細的Ampere繪圖/遊戲卡架構資料 參考: 對於30系列遊戲卡新架構的設計明瞭許多 NV這次對於Ampere繪圖架構(GA102之後晶片)的改進16
[情報] 首搭AMD版「光線追蹤」GPU!三星發表Exyn首搭AMD版「光線追蹤」GPU!三星發表Exynos 2200 旗艦手機晶片 2022/01/18 16:09 文/記者劉惠琴 三星發表2022年的最新5G行動平台旗艦晶片,首度攜手AMD打造全新一代Exynos 2200,主 打強大的GPU繪圖運算與AI運算性能,可支援光線追蹤技術的遊戲體驗。(圖翻攝三星官 網)11
Re: [討論] AI晶片現在業界單純說AI晶片是太籠統的說法了, 為了獲得最高效能與最高CP值, 業界把AI晶片細分成以下幾類, 1. Training 訓練: 這是目前業界最難做的部分,3
[情報] Intel以768組Loihi處理器打造「Pohoiki SIntel以768組Loihi處理器打造「Pohoiki Springs」 模擬等同小型哺乳類動物大腦規模 去年7月以64組Loihi處理器建構代號「Pohoiki Beach」設計系統,藉此打造可模仿人腦 運作的800萬組類神經元之後,Intel稍早宣布透過768組Loihi處理器構成代號「Pohoiki Springs」的全新設計系統,將可對應1億組類神經元運算能力。5
[情報] 三星電子開發出業界首款具AI運算效能的高頻寬記憶體三星電子開發出業界首款具AI運算效能的高頻寬記憶體 三星電子公司(Samsung Electronics Co.)週三(2月17日)宣布開發出業界首款整合人工智 慧(AI)運算效能的高頻寬記憶體(HBM):HBM-PIM。 最新「記憶體內運算(PIM, Processing-In-Memory)」架構將強大的AI運算能力導入高效2
Re: [菜單] 100K 專業軟體工作站原po你好,我最近這陣子也在研究如何組fluent模擬機 這邊先上結論(重要程度由上至下排序): 1. 多核心之間的通訊效率 2. 記憶體通道數越多越好、頻率越高越好、延遲越低越好 3. CPU核心數- 現在的電腦是CPU GPU 以後的AI PC 還加入了 神經處理器(NPU) 變成 CPU GPU NPU 這樣才潮