[情報] Alder Lake沒有AVX512,於是Linus又開嘴惹
不過嘴的不太是針對「啊你怎麼拔了AVX512」這部分
而是針對AVX512本身這部分
背景:
phoronix發現Intel最近替GCC 11新增自家Sapphire Rapids、Alder Lake系列CPU
支援的程式碼中,並沒有AVX512相關的部分
也就是Intel新的大小核Alder Lake架構不會支援Intel常常拿來廣告的AVX512指令集擴充然後創世神Linus Torvalds又双叒開始嘴砲了
source: https://www.realworldtech.com/forum/?threadid=193189&curpostid=193190 https://reurl.cc/exN7Q7
個人渣翻:
------------------------------------------------------------------------------
我希望AVX512會一敗塗地,而Intel會開始做些比較實際的工作
而不是多塞些奇怪的指令
然後替那些指令量身訂做些跑分。
我希望Intel能夠腳踏實地些:繼續推進製程節點,並且不要整天只是想在
高效能運算或是其他冷門領域耍些花招
而是把這些心思放在該如何讓一般的程式都能跑得更快上
我之前就提過了,這次我再重申一次:
就算是在x86架構最輝煌的那個年代
那個Intel錢淹腳目、除了Intel沒一個能打的年代
Intel的浮點運算其實是弄得最爛的那家
單論浮點運算的相對效能,根本是Intel反過來被各家壓著打的
不過這根本無足輕重
因為除開跑分的時候根本沒人在乎
目前AVX512的處境基本上是一樣的,而我會說未來也會是這樣。
對啦,你要找的話當然可以找到一些應用非常倚賴AVX512的支援
不過宏觀來說根本沒幾隻貓會專門為了這類應用而真的掏錢添購機器。
並且AVX512是有其負面影響的。
我反而更希望Intel把那些電晶體花在其他真正緊要的刀口上。
例如拿去加速GPU的浮點效能啦
甚至單純只是給我更多的實體核心,單線程性能強大、而沒有AVX512這種垃圾的核心 基本上就是AMD目前弄的這樣。
我希望我的CPU頂到功耗上限的原因是真的在跑日常的整數運算
而不是其他AVX512之類燙到爆炸、只會讓處理器降頻
──畢竟,多數人會用AVX512的理由是拿來memcpy (*1)──
以及浪費矽晶圓面積,導致塞不下更多實體核心的指令。
是的,我有些偏見。
我恨透了浮點數跑分這檔事,但我也知道的確有些人很看重這部分的效能。
不過我還是認為AVX512本身就是個餿主意,怎麼想也不該用它做為解決方案。
可能我有些反應過度,不過我就是這樣認為的。
Intel有過一些錯誤決定,而AVX512本身絕對是其中最經典的那幾個
部分原因也是因為它助長了x86市場的碎片化。
不要再弄這類專門加速冷門應用的玩意了
你該做的是盡心盡力地去讓那些最常見、多數人真正在意的場景跑得更快些。
隨便弄個不要太鳥的浮點運算,單單這樣人們就會買單了
我會說AVX2就已經非常足夠了。
對,我很容易被戳到。
------------------------------------------------------------------------------
(*1)
以C的語法來說,要快速初始化/複製一段記憶體區塊
你需要的是<string.h>裡面的memset啦memcpy之類的東西
前者把一塊MEMory都SET成某個預設值
後者幫你把一塊MEMory CoPY到其他地方
(對,部分人士真的很懶得打字)
而一般x86-64來說,這部分可能是以64-bit為單位去操作的
而處理器如果額外有avx512擴充的話
裡面的其中幾個指令可以達成一樣的效果,而且是用512-bit為單位去操作
想當然爾能夠快上許多──AVX512指令CPI跟普通指令一樣、並且不要降頻的話
小結:
浮點數運算不是所有應用都用得到的
而專注於浮點數的指令層平行化的AVX512更然
kernel就是一個用不太多的例子 嗯雖然我根本不懂,暫且這樣說吧
而AVX512又耗電又佔面積
會被Linus嘴也是合理
歷史上有過不少CPU附了專用的指令
基本上也是當時有需求才會有這樣的設計
不過這需求是否真的是需求則見仁見智
以前甚至有單個指令完成某段記憶體區段的傅立葉變換的
然後就沒有然後了
TL;DR
Intel自己搞出來AVX512,結果也不是普及到自家所有產品
用途又相對稀少
Linus認為Intel不該費心在這類冷門應用上
那些電晶體拿來改進IPC啦或是單純多塞核心啦有用多了
喔對這邊有另一個觀點,這篇洪教授的文算平衡打擊
https://www.facebook.com/shihhaohung/posts/4148325648543225
沒問就轉貼的關係,就不講內容了
有興趣自己點個
--
這樣粉粉怎麼吹AVX512
推個
難怪被說不懂裝懂的科技頻道
我只知道只要測試軟體一操AVX512,大概就等同後燃器
連Avx512都能噴,你怎麼不去噴zen2加了完整的256
全開。溫度跟功耗都衝到頂點
此Linus非Linus
723你真的丟臉到家 哪個Linus你也不知道
不懂就滾回去躲棉被哭比較不會被人笑你
某樓看一下是哪個Linus再說話好嗎...
有一個Linus是Linux核心的首要架構師
另一個Linus是Linus Media Group創辦人
Linus Torvalds有兩個?
723是在嘴哪個Linus
Linus Torvalds跟LINUS SEBASTIAN啊
看錯,原來是那老人那不意外阿,仇i都仇多久了
#浪費社會晶圓
其實Linus Torvalds也有嘴過其他團隊跟公司 比較有
名的Nvidia, fuck you!
還有說OpenBSD的團隊是一群
“Masturbating Monkeys”
這次嘴的有道理啊 根本走火入魔了 到底誰定的方向
還有Linus今年才從intel換AMD 要仇Intel也想太多
Intel 會一路下坡 跟這種迷航絕對脫不了關係
靠北 我原本想護航723只是反串而已XD
AVX512你不如用顯卡去算
----------------------幫你highlight-------------------------------------------
去翻 glibc 的 source 你就知道 memcpy 一堆版本
各種 SIMD 實作。因為要滿足特定條件的長度才能用
------------------------------------------------------------------------------
版上不少跑深度學習的就因為MKL買intel啊,MKL就靠A
VX撐啊,所以就取向的不同啦,Linus講的是PC,洪教
授講資料中心,至於intel PC產品線明明就是分開的還
有AVX就...
那個洪教授也是個嘴砲仔就是了,Linux kernel 要是
真如他所說要用AVX就變成要多一個intel64的branch了
感覺他觀點不太像這樣(?
https://reurl.cc/kdz3Yd
所以我說他是以資料中心觀點出發啊
然而你要是裝一張NV顯卡,深度學習還是只會跑在顯卡
上面,AVX還是無用
我是指洪有說他不是硬要kernel去應用AVX512的部分 誠然不同專業的人會有不同觀點 除了推文提到的MKL之外 可能做多媒體的人也真的覺得AVX512不錯快、Linus只顧kernel之類(? 不過我也沒寫過就是(逃
723要嘴LTT都還不夠格了 更何況創世神
說他嘴砲就是明明這件事情扯不上kernel要不要用浮點
數,他硬要扯遠說他們抗拒浮點數
原來XD
沒讀過白算盤的c52又要咬人了
居然拔掉了 這樣怎麼讓溫度突破天際
HSA才是最終解決方案
浮點運算Intel有輸過AMD嗎?我怎麼記得是I的強項
不過牙膏王特規的還不只這個勒 未來ml還多做一堆in
t4 int8的運算指令集 也是各種搞事的兇手
AVX512跑分好看 實際應用又是另一回事
其實兩邊就在意的東西不同而已 做kernel的喜歡乾乾
淨淨 越不特規越好 最好都堆滿電晶體衝傳統效能
做AI的當然有方便的ASIC幫忙加速屌打通用電路
然後洪教授最後一句我有些意見,要單一核心又快是可
以從架構上改善的,最無腦就把AVX的空間拿去塞cache
啊,你教計算機結構那麼久了不知道嗎?
牙膏廠是商業取向的 同樣面積去換一點點效能差異的
通用效能 還是有商業市場的AI特規效能 哪種好賣錢
就不好說了
cache也不是無腦塞永遠都有用 整體設計都要對著調啊
重點是cp值不夠的問題吧 同樣面積換到可能5%不到
的進步 拿去換成ASIC可能幾倍在算的差距
牙膏王之前更極端還有考慮塞FPGA進去 也有prototyp
e出來 不過好像有點沒搞頭
原來linux 核心會用浮點指令浮點暫存器(惶恐)
現在才發現這樣寫怪怪的XD 改了
但是作ML的人隨便一張顯卡就屌打你的AVX了,所以純C
PU跑分很讚,但是用不到
jacky大 AMD一直以來路線都是把浮點運算放在顯卡,C
PU是直接放生,沒記錯是這樣
牙膏王現在在推的是混合的拉 cpu前處理加減扣點時
間 還是多少有幫助
avx512實際上是有用的吧,我的1035g1跑matlab比同學
的10210u快超多的,那個時候用cpuz看就是多了avx512
接下來大概是想推深度跟自家顯卡結合的cpu+gpu方案
看能不能勉強幹過純nv gpu方案吧
自己搞AVX512然後又要做大小核,結果小核不能跑AV
X512又把他拔掉,以後難道只有XEON能跑?
不過我記得之前爆料好像只有小核阿痛不支援512吧
大核有不支援嗎 有點忘了
沒有也好,會涼一點
需要AVX512的去買I,不需要的去買A,問題解決
avx!
反正就是嘴Intel不要只會先射箭再畫靶
實際一點整天打高空
723不意外
洪講的Linus Torvards 是哪位??有這個人嗎 有夠
不專業
而且AVX-512本身也很雜....
Xeon和Xeon Phi跟Desktop用的AVX-512也有各種微妙
的差異
反正怎樣723都要嘴 哪個人有723了解指令集?
他早就放棄I皇了XD
洪教授的專業可多了,一下資安專家,一下硬體專業,
一下OS大師,一下深度學習,還有啥不是他專業的?
要浮點加速丟給gpu好嗎,不要拿核心運算來浪費,分
工,比起洪我更相信Linux
沒有讀過白算盤的C52 XDDDDDDDDDDDDDD
記憶體區塊的fft轉換...聽起來好雞肋但又好酷XD
推白算盤XDDD
723正常發揮
創世神的觀點很白算盤啊,就是加速日常最多用到的
指令集,而不是浪費電路去做其他奇怪的東西
Linus說的很理想也很直觀 就是最精簡做最集中的事情
是說也不是第一次噴牙膏王 前兩年的Meltdown超噴
另外他其實是絕對精簡派 他也噴了AVX2 甚至MMX(笑
不過相對於碎片化的AVX512 他能忍受就是XDD
這意思就是 消費者導向的產品裡不要浪費空間塞這個
硬塞進去也不會有人感謝你 更不會因此增加競爭力
他是徹底反對碎片化阿 不是消費市場而已
他甚至嘴了ARM的SVE會在HPC幹掉Intel的AVX512
放在 Xeon Phi 這種產品或是 GPU 裡不算碎片化啊
所以我第一句用的形容詞就是"走火入魔"
到 AVX2 為止付出的代價都還可以接受 之後就入魔了
碎破化很像是叫使用者不要用它;有礙推廣
User其實還好啦 大部分髒活都底層的人處理的
Complier也是牙膏廠自己花心力弄得 弄好有支援就跑
不支援就傳統方法而已 對特定用途就是有幫助
這種東西就一翻兩瞪眼 如果真的沒需求或效益太差
但Linus就是那個幹髒活的人...
自然會被淘汰 不過AI正在風頭上 應該難喔
kenral跟Complier還是不太一樣的東西 跟他沒啥關係
浪費矽晶圓面積笑死
最明顯差異大概 MKL Intel優化越來越極端吧
不過牙膏這樣也是劍走偏鋒 做軟體的越來越不可能特
地為了他們優化 等於牙膏廠要自己砸越來越多成本壓
在底層lib跟complier優化 還要一堆Support的人去幫
忙解奇怪的問題 是越走越極端了
啊還要考慮linux又不是只支援你i家一家cpu
多少狗屎爛蛋都支援 前陣子才從清單刷掉一大波
你i皇整天搞我一下支援一下又不支援 是要操蛋誰
光這層面linus就有資格嘴爆i皇
Kernel裡面一堆奇奇怪怪的東西 怎麼會跟他無關
別忘了牙膏王的Meltdown/Spectre 還是要Kernel配合
不過牙膏現在除了砸錢外,目前還是無法突破困境
啊不是說AVX512是微軟叫i皇做的嗎XD
照著Linux說法,推土機不就是他要的理想CPU XD
除了沒用的SSE4a指令集
*LINUS
723尷尬癌末期了
但推土機單核不行啊XD
硬體部門遇到莫名障礙 可4我們軟體部門正常發展
linus有我們A黑大將懂CPU嗎==
其實可以像以前把特殊領域需要的部分切出去。
如早期的 FPU 是另外一顆 IC 處理地,不須包在通用
功能的 CPU 裡。避免增加成本,以及開發生產的困難
度。可視需要選購。
那東西又沒需求高到值得額外開一顆 而且連接速度也
是問題 雖然牙膏王最終藍圖的確有打算要拆一拆
若 AVX 對 AI 等領域有特殊幫助,並不需要讓每個客
戶都得負擔這個成本。
就跟 Intel 現行分出無內顯的 ....F (雖然還是做在
裏頭,並沒真正移除電路)
別想了 就是那小眾頂不住才會這樣強渡關山 不然就
會乖乖做ASIC了
推土機確實在linux上某些測試效能可和i對抗
不知道就說不知道,在那邊牽拖看錯,要不要再牽拖
你媽把你生出來?
但當時(現在也是)很多程式還是單核至上 尤其windows
所以的確是阿痛不支援 大核還是正常?
TSX不是完全放棄了喔 所以新架構修好又在出發?
https://reurl.cc/0orbm6 product-briefs
不過話說牙膏王也投蠻多人在做DPC++這種跨所有平台
的complier 這種也應該能發揮硬體優勢就是
Lakefield 1+4, Alder Lake-S 8+8, 應該可直接類推
ADL的core不是更新的嗎?
規模不夠大的話 GPU 浮點會算輸 CPU SIMD
一個task從CPU丟到GPU,就要浪費一段時間
GPU API又分AMD, nvidia, intel
現在 GPU encoding 跟 CPU 相比差距有多大啊
一些高計算量的工作,如果 CPU能做完
其實大家也懶得去呼叫 GPU來幫忙
avx ai什的好複雜 書讀的不多 請問跟av 或avi有關嗎
?
只是有沒有必要去搞 AVX512的確是個問題
我覺得一般的數值分析行為,大多也不會用GPU
圖靈encode已經到可以用程度拉 接下來再多塞硬體
只會更好而已
AMD的R9 3950x(avx2) 就把 10980XE打好玩的
反正老黃很精 傳統遊戲性能的提升一直在控 都先做
邊邊角角的東西
12->7 這代密度提升快三倍 老黃又屌炸天 die size
看起來大概不會變小多少了 多快三倍電晶體 想幹嘛
就幹嘛
不過說真的 AI雖然這麼熱 但是真的有商業價值的東西
好像也還好 不知道什麼時候又要循環了 CS每幾年就換
個東西炒
不炒經濟會停滯 (x
WARgame723真的丟人現眼 無知就算了文章也不會讀
其實想一想也滿奇怪的 明明AI都是只算模型 用戶端
只管用不管算 結果塞了一堆訓練用的電路要幹嘛...
某些應用需要能在Local算,例如臉部辨識解鎖
AI能綁的的東西太多,搞不好這十年CS都吃這碗飯
這跟技能樹一樣 點數有限 低效益技能分配太多會掛
這個Linus等級比另外一個Linus高到銀河系遠好嗎?
全世界大部分伺服器和超級電腦的作業系統核心都是
他寫的
沒那麼誇張吧XD 後來各自有社群在修改和維護啊XD
i皇就萬惡之源啊 mmx砍stack卻動到x87 x64 sse2好
不容易淘汰x87統一天下又來avx avx 號稱encode清乾
淨又冒出avx512 套用水球大的話i真的是奇謀而短orz
他有不可動搖的貢獻跟最終裁量權? 但不會去寫了
支持這個理論 Pytorch和tensorflow明明有顯卡可吃
偏要AVX2 CPU才能跑 要不然source抓回來自己編
浮點數計算顯卡海放CPU不知道幾條街了
要不然超級電腦狂插Tesla卡插得比礦機多是要幹嘛
他沒有裁量權吧?不然這東西怎麼open?
不過 PyTorch或Tensorflow有一定要支援AVX2的CPU喔?
他有 Linux Kernel的Merge Window與版本確定
都是他在發的 他也臭幹過很多次各家公司發垃圾
要放進Kernel
現在都強調edge了拉 local要有簡單訓練能力local最
佳化模型
等一下723你說Linus 仇i搞錯什麼了嗎
他撐著用i多久了 是幾個月前才受不了
兩個Linus其實都是今年才把自己的主機換成AMD
自己搞不清楚狀況被笑還要嘴硬講年紀
可憐哪.jpg
不管是反串還是真的fanboy都是可憐
ai需求超級假,幾個政府扶植的新創都不了了之
更不用說財團法人"們"為買而買的ai gpu卡了
這幾年真實有用的就是VM/data center/高速網路
多核心等,linus說的沒錯,教授待的地太"特殊"
amd也會往data center走,不過amd還缺好的網路晶片
可以查查交大智慧視覺相關就知了
所以教授看的點和真實應用差異,新創都養不起
未來?未來搞不好政府又另一套口號,業面也有新技術了
網路晶片是沒救了 看看能不能直接用買的
哈!看完都不知道自己眼睛跳躍到那條世界線 MS FB A
Z G 開的規格 跟世界頂尖實驗室正在做的都是假的 只
有台灣業界 學界需求才是真的
可是那些全叫做data center大哥,你要去查下使用率
這些cloud用最多的是什麼?這是全世界,你只看到想看
就如同台灣財團法人和學界了
網路晶片我看要買也難,老黃才剛把Mellanox買下
intel在這dc的網路技術超級多,amd很難超車
我是不懂國外/台灣財團法人花的錢gpu的錢何時回本
國外我覺得很難說,台灣的話確實就有點在跟風
最近公司也是接到不少有類似需求的客戶
但只有少數才很明確提出他們的需求目的
就跟前幾年的雲端一樣,台灣一堆公司推出所謂的雲端
產品,但實際去看很多都只是主從式運算概念的東西
我覺得不會回本吧,據消息指出租金比自建營運的成本
還要低
主要就那幾家巨獸有真的資料跟人能玩啊 剩下的瞎搞
居多 不過那幾家如果扣掉租借式部分 純靠自己AI商業
模式部分不知道到底賺了多少
原po好像少po了其他重點,另回
應該不是説浮點少用 而是超寬SIMD
的浮點(或整數)很少使用價值
絕大多數程式是需要scalar浮點
你AVX512可同時跑16個32bit浮點
Who cares? 我們需要是1次1個
但是跑很快很快的
同時16加法或16乘法對正常軟體無用
一般是需if (A+B>CxD) { (A+X)/Yx4 }
這類邏輯流程運算
超寬SIMD完全不適合做這類運算
而且比超寬SIMD的平行吞吐量?
適合那種的工作我為啥不用GPGPU?
GPU有幾千個平行的超寬向量單位
還可多插幾張卡 擠爆炸性浮點量
導致AVX512不是暫時雞肋 更可能永遠...
其實連AVX256都沒有很常用
只是AVX256至少不會降頻
所以還能説起碼有做就有一點加分
AVX256不常用?
餵狗查array_multiply_prf.asm 怎麼運作的唄
現在3A遊戲更吃ComputerShader
用GPU去滿足大吞吐量平行浮點運算
AVX512當初是Larrabee提出的
希望用X86 眾核CPU去取代GPU
弄到最後還沒上市就被打趴在地
為資源再利用,把AVX512往其他領域塞
包括伺服器,超算,AI, 繼續跟
超平行大顆GPU對抗,但還是慘敗
最後想再挪到消費級當成賣點
居然還記得intel的X計畫(名字隨意取的)
可是人類還無法寫出超平行化程式碼 GPGPU overhead
註定無法跟cpu比 另一個極端就是APU的gpgpu囉
平行度輸太多了, overhead 從來沒那麼重要吧
不能派一小群葉問去對抗幾萬大軍也打不贏啊
推kuma
爆
[問卦] 下週一口試 曖昧對象跟前任復合安安如題 小弟可憐碩二研究生 下週一要口試 報告練習都被指導教授噴到爆炸 曖昧對象今天跟我說她和前任復合了 心真的好痛但哭不出來 也睡不著19
[情報] 12代Intel犧牲Ecore小核可獲得AVX512指令剛解禁的第 12 代 Intel Core 處理器,預設上以 P-core 與 E-core 進行混合運算 並且預設上關閉 P-core 的 AVX512 指令,而目前得知 ASUS、ASRock 的 Z690 主機板 可通過 BIOS 來啟用此指令。 只不過,對於一般電腦、遊戲使用下,根本用不到 AVX512 指令 因此經過詢問 Intel 得到以下對於預設關閉 AVX512 指令的說明。15
[情報] 如果 AMD 也支援 AVX-512 指令集會發生原文標題:如果 AMD 也支援 AVX-512 指令集會發生什麼事? 情報來源:TechNews 原文網址: 最近有國外媒體報導某 Twitter 爆料大神,透露 AMD 下世代 Zen 4 核心,將支援 AVX- 512 指令集和人工智慧深度學習常用的 bfloat16 浮點格式(接著是 EPYC 核心數會從 6417
[情報] Intel公開AlderLake核心ECore會關AVX512Intel 近日釋出了 Alder Lake 開發人員指南,在上面公開了一些之前沒有釋出的相關資 訊 包括大致的 SKU 以及指令集支援情況,因為 Alder Lake 是由 Golden Cove (P-Core)和 Gracemont (E-Core) 兩種不同架構的核心所組成的,所以它與以往的處理器相比會有更多不同的核心組合。15
[情報] AVX512指令集終於滿血11代Core8核穩 4.8G與AMD處理器相比,Intel在高性能計算上有個殺手鐧,那就是AVX-512指令集 它可以讓浮點性能提升數倍,之前主要用於XEON 現在10代Core行動版、11代Core行動、桌上型也開始支援 然而AVX-512指令集有個很尷尬的地方,那就是一旦使用了這個指令集 往往會因為功耗較高而導致CPU大幅降頻。14
Re: [情報] AMD:走自己的大小核道路 避免i皇AVX512也不是Intel當白老鼠,廢掉AVX512是有原因的 Intel核心面積很大顆, 這個是RaptorLake S 8P16E的長相 一個P core快可以是4個E core13
[情報] i皇打算在硬體上隱藏12代的AVX512指令集Intel打算進一步限制12代酷睿的AVX-512,接下來會從硬體上隱藏這指令集 -- 關於Intel第12代酷睿處理器對AVX -512指令集的支援情況,其實挺讓人迷惑的,Alder Lake處理器裡面有Golden Cove和Gracemont兩種核心,其中Golden Cove在硬體上是支援10
[情報] AMD Zen4 EPYC有可能支援AVX-512除了支援AVX-512之外還有BFLOAT16指令集 前者是被Linus罵翻的指令集。後面則是去年Xeon上加入的。主要是著重在AI運算和 深度學習方面。也皆露出Zen4 EPYC的L3最高來到384MB 只是如果AMD也跟進支援AVX-512不知道Linus會怎麼想了4
[情報] 教你如何區分支援AVX512的Alder Lake CPUAVX512對Alder Lake CPU的支援本身就是一個有趣的話題 簡而言之Alder Lake系列開發者指南中列出了支援AVX512指令的新系列桌上型CPU 根據本指南最初 AVX512支援僅適用於Alder Lake桌上型CPU的大(性能)核心 但Intel後來更改了指南並將AVX512列為禁用。 但評測者和超頻者很快注意到,儘管沒有官方支援Alder Lake CPU仍然支援AVX512指令