Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售
你劃錯重點,
先不論這篇論文的可行性與實用性,
你真的劃錯重點了
算力重要嗎?
重要但是不是影響販售/採購晶片的主因,
這個年代是用軟體思考的年代,
有兩個軟體方面的主因是AI晶片的關鍵:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch
很多人嗆我說廢話,
但是很多人卻是連廢話都不懂,
LLM 全名叫做 "Large" language model,
都已經叫做Large 了,
還放在最前面以表示重要性,
所以能夠處理"Large" 模型的能力 遠比算力重要的多,
這篇文章有圖形解釋cpu vs gpu vs tpu的差別,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿這三者來比較算力是很蠢的事情,
這三者的算力彼此之間個差了十倍到百倍的差距,
比方說我有一大串數字/資料要做運算,
cpu 必須每個數字/資料做運算之後相加減,
gpu 把數字/資料放進兩個矩陣一次就算完,
tpu 直接把算法設計成硬體邏輯,
數字/資料放進tpu可以直接得到結果,
所以你看出問題了嗎?
當你的資料與模型太大 會塞不進去矩陣 (v-ram),
同樣的道理,
資料與模型太大 會塞不進去tpu裡頭 (v-ram),
現代化的AI 瓶頸已經從算力提升到模型太大,
而這就是NVDA 厲害的地方,
一顆GPU v-ram 不夠塞進資料與模型,
沒關係, NVDA 把GPU 串連起來,
數百萬顆的GPU 串連 v-ram提升數百萬倍,
總可以塞進資料與模型來運算了吧,
請參考"電池串連"原理 就可以了解我在說什麼
TPU 原本把算法設計成硬體邏輯是個優點,
但是在串連運算上面卻成了缺點,
矩陣運算可以串連串起來運算,
邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現,
所以TPU 被綁在自身v-ram 的大小限制上面,
太大的模型與資料無法放進v-ram 就無法運算,
不過還是有解決方法,
這邊就不多說了
所以算力重要嗎?
在LLM 面前 真的不是最主要的考量
2. CUDA 版上吵翻天了,
不需要多說了,
你算力就算能比NVDA快上萬倍,
你也要能夠繞過CUDA 再說,
更何況算力有沒有比較快都很難說
※ 引述《oopFoo (3d)》之銘言:
: 千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。
: 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。
: 這次AI浪潮,應該也是類似。
: N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。
: 但最近一些AI的發展,也許會發現,這些Compute是不需要的。
: Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
: Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的論文,可能是真的翻天覆地的開始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的討論。
: 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。
: 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits)
: 然後本來是fp dot product的只要int add。
: 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善?
: 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。
: 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。
--
好的 歐印TQQQ
謝謝分享
何必跟一知半解的認真
感謝分享 ALL IN NVDA
講中文啦QQ
問就是買
嗯嗯 跟我想的一樣
閱
謝分享
何必認真看到那篇論文的產地就可以end了.
00757會漲嗎0.0
推. 硬體受限情況下 只能從其他地方突破惹
歐印TQQQ
樓下幫我看一下這一大篇有沒有股點
GPU => NVDA vram => hbm => MU switch => AVGO 包牌 => QQQ
中國的HBM不知道何時商業量產
豪!!! 所以要歐印誰?
所以沒有比cuda更屌的東西你還是要舔nv
有比cuda更屌的東西, 但是掌握在七巨頭手上
感恩明牌 五星推!
我記得原Po是在G工作的FTE
好窩歐印
幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋
但如果要tpu 一定是port一個可以的model v-ram加上
去面積大 價錢還是比H100划算吧嗎
繞過去就好了
推解釋 這我看得懂
問就是TQQQ
那文就是裝逼拐個彎吹支那或成最大贏家而已
欠打臉
請問什麼東西比庫打還猛?
CUDA 是最底層的軟硬體介面, 提供軟體(寫程式)得到硬體加速的效果, 但是Google 的Tensorflow, 以及Meta/Facebook 的Pytorch, 是建構在CUDA 之上的python API 套件, 現在已經很少人直接寫CUDA, 大部分的人都用pytorch or tensorflow, 我個人的經驗是pytorch 比較容易, tensorflow 比較底層比較複雜, 但是相對的tensorflow 提供更強大與更自由的設計功能, 不論是Google or FB, tensorflow or pytorch, 在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速
中國的科技業不是只能代工跟抄襲嗎
switch ==> Nintendo
不會是量子電腦吧
現在好像開始談LPU了
好,結論就是輝達強暴了
包牌是TQQQ啦
關鍵就是要 大
NV不是要搶AVGO的地盤
本來就是,不然一直在衝v-ram幹嘛,一堆北七一直在
講算力瓶頸
AMD能分一杯羹嗎
出新卡建新機就是一直在關注v-ram多大才知道能跑多
大模型
讚讚
不過pytorch不算是繞過CUDA吧,頂多說可以對硬體有
指哪算哪效果吧?
pytorch or tensorflow 搭配自家的driver+kernel+firmware+tpu/asic, 就可以繞過cuda, 但是自家的那套東西不對外販售
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:35:18SOXX
所以現在新創都在做inference的加速嗎
是的, 新創 training 玩不起, 除了openai夠錢也夠名聲能夠玩training 另外, inference 尤其是 edge AI 會是下一個戰場, 只是我不知道居然來的這麼快, 我原本估計要兩三年後才會到來
繞過CUDA的意思是也可以不用NV的晶片嗎?
是的, 但是目前只有七巨頭五仙女有能力繞過cuda
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:39:17這篇論文其實是-1,0,1 , 其實應該很適合整合在
flash TLC上面。 或者 三檔電壓的RAM上面。 如果
放在FPGA上,就是2bit 加法器。
快一倍走了 韭菜套滿手 割肉再進去
現在應該是還有那些國家的LLM的sever還沒被滿足,才
能確定有沒有overbooking
好的信貸加質押tqqq
Edge inference 到處都在推,簡直殺紅眼了XD
AMD除了價格優勢,在技術上有什麼優勢跟著NV喝湯嗎
推你認真,下面那篇真的不知在幹嘛
包牌不應該是tqqq嗎
個人認為真正的護城河是NVLink跟NVSwitch
Edge side只可能做inference阿
CUDA的重要性恐怕還要排在這兩個後面
另外training的成本也很大 不可能繞過去
目前openai 是用富爸爸的azure data center
結論: 單押g
你要搞模型 你還是要花錢買NPU(TPU)或是GPU
推
推
除了谷歌的TPU 目前只有微軟說要自己做 下單給牙膏
其他都還是用NV CUDA 像是META跟TSLA 就買幾十萬片
拜託別刪,謝謝
狗家忘了下車 嗚嗚嗚嗚 99狗家 QQ
另外就原Po講的 AI model會越來越大 你圖形辨識跟
GPT到現在Sora的模型 不是同一個量級的增長
你要進入到下一個階段的AI 你就只能繼續擴大算力
可能Sora需要30萬張H100 下一個AI就需要100萬張
然後這些training是沒辦法繞過的 你要進場玩 你就只
能花錢
基本麵吃起來
TPU也有TPU pod好嗎…
請問inference就不用把整個大模型放到vram嗎
樓上 用切的QQ 參照Model parallelism
所以gpu之間通訊速度很重要 這是老黃的大招
4090有等效A100算力 但4090多卡之間通訊太慢
請問原po 對Alphawave IP 這家的看法? 傳輸速度會
是下一個gating 嗎?
謝謝L大解說
我廢物只想知道要歐印哪隻
原po說的內容外行人可能真的搞不董"大型"
看不懂 先給推
原po跟L大都好心人
用生活中的東西來說 台鐵高鐵都是大型
但是台鐵高鐵的速度差異很明顯
Waitrop發一篇文 我就買一些TQQQ
如果你家有超跑 跑的比高鐵快 那還是迷你型沒用
謝謝說明
TPU好像可以串連了? google上次說training用自家TPU
超低延遲 網卡直連暫存器 這樣才能擴展
我記得在10多年前流行大數據的時候開始有"大型"
現在的大型需求真正變的火熱
NVDA真的是安心買,未來它的saas 會越賺越多
歐印
看到sora橫空出世,我只覺得老黃infiniband贏麻惹
GPU之間的溝通速度 就是AVGO(博通)的強項了
以後都是要求串連數十萬顆起跳
v-ram就是關鍵啦! 串連效益/成本就NV最高,其他怎麼
怎麼打?
所以AI5才有AVGO 他是專門做傳輸ASIC的
老黃說買越多省越多不是在騙人的!
原po說的兩點也是教主說的老黃包圍網的成敗因素
只要這兩點不突破包圍網就徒勞無功老黃繼續統霸天下
感謝分享
所以蘇媽才要跟AVGO聯手啊蘇媽就是需要個"amd link"
真的怕就買台積就好 我是覺得NVDA的護城河非常深
蘇媽+何國源資產+VictorPeng+陳福陽 打老黃
旁邊吃瓜看戲 QQ順便可以看彼此策略攻防戰
AVGO的Tomahawk5 應該是市面上唯一800G 的switch ic
黃董手都伸到saas惹,進度真的很快
NVDA AMD QQQ全買就好
老黃把供應鏈都綁樁顧好了! 其他家想追上先不考慮
技術成本能不能追上,光是產能卡不卡的到都是問題!
推一個 解釋的很清楚
不太懂為什麼AMD要找avgo合作,它自己不是有Xilinx.
PyTorch+rocm就饒過cuda了
你要每個廠商各自做自己的TPU driver compiler SDK
還只能自家內部用用 這樣搞到最後有比較省嘛...
現在問題就是真的能讓ai 突破的是學者吧,不是工程
師,好用,用習慣才是重點
如果是成熟準備上線的產品還好說 現在軍備競賽階段
如果自家晶片研發不順 把軟體研發拖垮豈不是更慘
大廠多少還是要買雙保險
我待過四五間中美科技巨頭, 這些AI伺服器我在十年前就在研發, 中美檯面上的AI伺服器很多我都有參與研發過, 當年跟這幾家公司的高層開會的時候, 就有討論過這個問題, 答案是NVDA 賣太貴了, 自研不只是為了2nd solution, 也是因為自研再怎麼花錢都比買NVDA 便宜, 然後你又搶不到足夠的NVDA GPU, 所以能夠自研能夠用asic tpu 等方式的就盡量用, 不能用的應用再買NVDA GPU, 對於search, youtube, 天貓掏寶, amazon search, facebook image/vedio等等, 需求量夠大, 自研絕對省很多
推
AVGO到底還可不可以買啊
http://tinyurl.com/2znsvsxa QQ 旁邊看戲
我有買AVGO
AVGO除了技術強 CEO更強 有其他風險嗎
是不是無腦AI5 就可以
我還真的只有買AI5, 連QQQ都不想買
TQQQ王 以後可以不要隨便砍你自己的文章嗎 文章是
你的 但下面很多推文很有參考價值 我印像中我的推
文就砍了至少三次 實際上應該是更多 尊重一下推文
對不起! 因為我常常會不小心講話得罪人, 所以看到有人對我的發言很有意見感覺又得罪人了, 就乾脆刪掉免得惹麻煩, 我下次不會再刪文了, 抱歉!
好文
有時候是編輯文章同時推文被吃掉吧?
50% qqq/tqqq+ 50% AI5 洗頭+局部加強?
推
不是 他是整個文章砍掉
看完了 所以要買那隻
推
有時真的得砍文 我也常砍 因為有時講太多業界的
會讓自己也有點麻煩 像果家就在這方面抓很嚴格QQ
所以我都手動備分XD
關鍵有時在推文 點一下 就會有更多想法
TQQQ王是好人QQ 我周遭同事沒人上批踢踢講業內事情
AVGO漲最少
看完只看到包牌 QQQ
弱弱地問七巨頭五仙女是指???
我還以為你是手動砍文是為了低調 因為說太多
tpu也可以設計成可以解hierarchical問題的
是擔心歐美cancel culture嗎?唉
推
推
好啦 我也說了文章畢竟是你發的 你還是有砍文的權
力 只是很多推文很有幫助 不希望回來要找找不到 折
衷也許你就編輯 把你的部份不適合的砍掉就好 供參
CPU怎麼會在你比較清單上
因為前面推文有提到用CPU就可以, 我拿CPU來比較只是想說根本不可能用CPU算AI, → oopFoo : GPU做inference。普通CPU就可用了,這是關鍵。 02/29 09:44
Tpu 的問題就是硬體已經作死了,應用面變成侷限在
某些問題上,超出這些問題就不能用了
推TQQQ王
推分享 謝謝
推~~
看看cuda 這個量級,後者要追上至少5年以上
我不知道為何AMD 要推ROCm, OpenCL 是 open source, 已經累積很多的成果以及CUDA 轉譯, 不懂為何不繼續OpenCL
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:36:24 ※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 15:39:56可能是AMD為了自研市場布局嗎? 因為便宜就有市場
然後蘇媽想要把自研整個吃下來?
有文科翻譯機可以翻譯一下嗎
大家有注意到Meta找陳陽福去當Board Member嗎?一兩
週前的新聞
Sorry 是陳福陽
教主說的NVDA 包圍網裡頭最積極的應該是Meta 組博客, 也可以理解, 他畢竟是臉書創辦人, 是真的對臉書有感情的, 第二積極的是微軟與AMD蘇大媽, 至於其他的七巨頭專業經理人CEO 都自身難保或是志不在幹大事, 尤其某公司的CEO, 敵人就在本能寺 (公司總部), 不在NVDA
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 16:01:42你就是在酸狗家XD
他那葛paper也有講vram需求會變小很多 模型越大差
越多 好像號稱70b的可以差到40倍
問個不專業問題 V-RAM大小跟成本正相關可以理解
那設計之初 就把記憶體放大某個安全係數 相較於總
他那東西關鍵來來去去還是training沒講有省
現狀4能train大model的地方沒幾葛 尼要大家都用尼
那套 那也要資源夠多當side project
成本 V-RAM還是比較便宜的吧 我看蘇嬤的同級產品
v-ram都刻意比N社大
我個人看法, vram 放越大成本越高, 蘇媽同等級vram 都比N大我也有發現, 所以蘇媽的毛利比老黃低呀! 以老黃角度, vram 少一點可以省一些成本, 毛利拉高, 而且可以變相讓買家多買一些gpu, 反正目前市場是有在賣AI 晶片的就他一家, 其他的都不成威脅 而且沒有記憶體安全係數這種東西, 因為模型大到一顆GPU一定裝不下
省bit的東西印象中ai剛流行就一堆人搞惹 起碼10+年
有些東西變成標準 tf32 tf16 bf16那些的
標準要那些大公司才推得動
如果只是想湊葛asic概念 去賭的小公司一堆死惹
尼對vram的理解就錯惹
單卡vram夠大 單卡可以跑的模型就大
"單卡vram夠大 單卡可以跑的模型就大", 沒錯, 但是在LLM面前, vram 再怎麼大單卡都塞不下, 數量級完全不同
像tpu v5那種單顆16G然後拉一堆光纖對連的方案就很
慘 因為那種link的pJ/bit大概是cowos的幾十倍
簡單講人家單卡塞的下的狀態功耗優勢明顯
所以要不要繼續捏NVDA????
就這個問題
蘇媽的192夠塞那種70b惹 而且70B也很多夠用惹
我覺得那種Tb級的下代model跑起來成本也不低
市場可能會先慢慢消化gpt4等級的應用
hbm是mu喔 還以為是韓國那兩家
這篇給推 NV要爆噴了
爆一爆吧 基礎邏輯大家都應該有 目前cuda硬解不可避
有能力搞底層繞過cuda相關運算法則的都是巨頭
colab選TPU跑深度學習超級慢
相對很快,很強,但是沒用,下去吧電子垃圾
最近Google AI別鬧了,生成圖片一直出大包,美國國
父變黑人
不明覺厲
遙望Cuda當年唸書就有了 寒窗十年
正解
謝謝TQQQ王願意分享
all in NVDA很怕被機構惡搞
all in TQQQ比較穩定啦
HBM hynix一直都有,跟nv合作很久了
m家是去年殺出來的
最近也有新聞說m家先整合進H200了
三星目前我所知是完全沒有
TPU 在做矩陣convolution, 核心的運算透過systolic
array 執行。它基本就是將資料的時序關係投影到特
定運算平面最大化運算效率。大矩陣分割在影像處理是
基本問題。即便超大activation 也可以透過多個TPU
協同處理。運算只在乎資料彼此關係, systolic arra
y 只是這些運算的不同種抽象形態表示 對應的都是同
樣的matrix convolution. 差別最多在於資料流處理
的差異。這種硬體架構對於邏輯設計算是基本的 只是
教科書裡面的例子
樓上的說法是 TPU如何用演算法克服"大型"
對TPU設計廠商來說只是基本工?
類似在學校學生超大數乘法的演算法作業?
切圖、串連再厲害,ram 不夠大就是虧啦,像武器一
樣,一寸長一寸強
所以蘇媽喜歡的是那種很大很大可以一次放進去
所有資料的vram
重點還是你vram硬體設計再大 也不可能塞得下一個
model 所以意義在哪裡
應該是以後會有 "大型" "小型" 兩種市場需求吧
推 雖然很多看不懂@@
LPU的成本太高了啦,塞一堆sram,哪來那麼高的良率
及封裝量能來玩這個,成本效益還是輸ASIC
西台灣就是有算力瓶頸才開始玩模型剪枝,等到未來各
行各業都需要AI推論時就會很有用,不過西台灣也只能
這樣玩,L20的推論只是堪用,所以配合中芯晶片的無
奈之舉
Protrader: 20-30年前很多應用的論文在不同領域,和
TPU 的問題基礎類似。
讚
ㄏㄏ怎麼沒有人提挖礦潮要回來,老黃又要賺兩邊
怎麼看都是老黃繼續輾壓,市值能多高?或是搞拆股
技術上是一回事、但不代表有訂單、不代表LLM是強需
求。好吧我是借機希望有人可以回答我的疑惑
LLM 比專家系統的助理好多了,不過要變成強需求的
話可能要先解決準確度的問題,不然 LLM 就像在作夢
10
千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。 這次AI浪潮,應該也是類似。 N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。 但最近一些AI的發展,也許會發現,這些Compute是不需要的。19
其實大家說老黃 CUDA 的護城河之深,不是沒理由的。 RTX 系列本身就內建 Tensor core,可以針對machine learning 做加速運算,例如 G 家的 Tensorflow 和 Meta 的Pytorch 都可以利用到 CUDA-X 函式庫加速在訓練和推理的運算 有人說 Tensorflow 利用 TPU 可以繞過 CUDA,不過目前最新
爆
Re: [情報] 情報數則給太長直接End的: 沒人會用4090 train正經的模型 請愛用A100 -------------以下正文--------------- 註:DL是Deep Learning94
Re: [新聞] 輝達傳再推中國特供AI晶片 最快「這時」老黃應該是有機會能繼續用黃家刀法 用高階價錢賣低階產物給中國 從美國的最大化利益角度來想 美國也會希望老黃賣次級的晶片給中國 這樣就某種程度能最大化阻滯中國發展 和弱化中國科技樹發展 比方說 中國最近的華為昇腾910B AI晶片號稱對標A100 已經賣給百度作為AI開發用途 如果說中國目前上面自製化晶片算力是10 那A100是30 H100是50 那老黃只要賣給中國晶片71
Re: [閒聊] AI畫圖是不是大數據拼圖?只要是深度學習AI,原理都是把圖轉換成矩陣,通過神經網路作back propogation學習特 徵,在整個模型的運算過程中只有矩陣,不存在任何圖像拼接的過程 你認為圖很像,是因為那個tag底下的圖大多有類似特徵,模型通過矩陣學習到這個特徵 當然,也有一些generator的算法是會拿部分來源當輸出,不通過矩陣運算的,怎麼選也 是讓模型自己學,類似概念可以參考pointer network或residual network之類的算法51
Re: [標的] NVDA/AMD 討論 多哪隻這兩年就是AI雲端基建年 玩家就是NVDA/AMD 至於那個i皇歐 不好說QQ 如果用internet大時代來講 等基建完畢之後 就會有Software As Service (SaaS) 這類類似saleforce興起 目前看到的玩家就是Databrick 建議可以等這家上市ipo 買爆他 基建完之後 就會慢慢走向AI as Service (AIaaS) 軟體業 我有點懷疑老黃想吃AIaaS這塊應用市場 在AI界 刷演算法的除了G/MS/OpenAI/Meta等19
Re: [討論] AI晶片這我來回答吧 AI晶片一般是指用來加速深度學習模型推理的晶片 如果是訓練通常還是利用Gpu 因為生態系比較成熟 那麼深度學習推理時間會耗在哪裡呢 通常就是convolution 或是Gemm21
[閒聊] 串連數千個 Nvidia GPU,微軟打造 Chattechnews 串連數千個 Nvidia GPU,微軟打造 ChatGPT 的超級電腦 March 14, 2023 by 陳 冠榮 微軟斥資數億美元打造一台大型超級電腦,串連數千個 Nvidia GPU,為 OpenAI 的聊天機14
Re: [閒聊] 文心一言AI繪圖(慎入)文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網 路資料兩年了,到了去年底才終於開花結果 目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,Chat GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上 一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添14
Re: [新聞]全面禁止高階AI晶片出口中國要看懂這個新聞需要一些對於高速運算的基本知識。 輝達的GPU產品分成三種不同等級與用途,第一種叫做消費用晶片,也就是大家常常聽到跟使用的GTX跟RTX,主要用途在於遊戲運算以及虛擬貨幣挖礦,主要安裝在伺服器跟個人電腦上面 第二種等級的 GPU 是nvidia quadro系列,這種等級的GPU是與用來做3D繪圖運算用,用來渲染3D影像,主要安裝在工作站級的電腦上面。 最後一種等級的GPU是Tesla系列的A100跟更新的H100,他們的價格完全不是前面兩種等級可以比的,這種等級的GPU是安裝在高速運算中心,提供最高的算力。 另外這三種等級的晶片雖然都有其專有設計的目的,但是並非只能用在那個領域,要用A100來挖礦或是用RTX來跑深度學習都完全沒有問題的,他們的差別在於最高算力以及能耗上面,A100跟H100有著遠比其他等級晶片要高出許多的算力,要達到同樣算力,要用更多的能源,或是更多的空間以及更多成本。4
Re: [請益] 1660S x2 or 3070 組DL server最近版上出現一些深度學習配單,覺得有一些心得可以分享,省的走冤枉路 就來回一下舊文,我最後拿3070喇 先說結論,3060 cp值最高唯一推薦,再上去建議直接攻頂3090 大部分人買顯卡都很關心效能,所以我看到有些人會拿3070, 3060ti上來問 但是跑深度學習除了效能以外,VRAM大小以及資料讀取的IO時間都會影響training效率- 不知道為捨抹會講到邊緣運算啦QQ 不過老黃這波佈局就是替兩三年後落地場景客製化晶片 一般落地場景Inference(AI推理)的工程順序如下 拿一個PreTrain萬用大模型 用特殊資料FineTune 然後Deploy (Inference) 以LLaMA 7B模型為例 假設我今天要做一個醫療問診小幫手的AI 當我用一堆醫療資料 FineTune這個LLaMA 65B模型後達到我需求 (到此為此都會在Cuda生態圈做)