[閒聊] LLM 推理用機器

sachialanlus 發表於 2024/6/16 下午3:43:26

看板PC_Shopping標題[閒聊] LLM 推理用機器作者

(yeh)時間Jun 16 15:43:26 2024推噓18 推:19 噓:1 →:68

由於最近 LLM 發展越來越快，剛好自己也有一些 LLM 的需求。
但又不想要使用 OpenAI 或是其他供應商的服務。
從前幾個月開始就有想要自己弄個機器來架設服務的想法。
最近開始也對高參數的模型越來越好奇，但由於大容量 VRAM 的 GPU 實在是買不起，所以想說是不是轉用 CPU 來玩玩看。
我看了很多技術分析和 Benchmark，基本上都說 LLM 的 inference 目前是 memory bound，也就是 memory bandwidth 是瓶頸。
所以按照這個思路用 CPU 來跑模型的話首要提升的就是 DDR 的 bandwidth。
我看了下 threadripper 和 xeon 的幾個型號，其中我覺得 CP 值比較高的是 Intel 3435x 可以 8 通道 DDR5-4800，換算起來頻寬大概是主流 PC 的 3-4 倍。
但我去拉了下估價單 W5-3435X (56500$) + Asus Pro WS W790-ACE (27990$) + Kingston 32GB 4800MT D5 ECC * 8 (40800$) = 125290$
為了要用這顆 CPU，整個成本算起來根本不比買多張卡來得划算多少。
我就在想是不是還是 GPU 多卡買一買就好了，反正即使 256GB 的 Ram 放得下的模型在我的平台上根本也跑不動。
唯一想到的用途就是同時開很多個 instance 來服務不同的需求。
(上上個月還有海淘一張 2080Ti 22G 來試試看，結果用沒幾天就壞了... 還好能退)
最近也有在看 AMD 的 Strix Point，這代預期的 iGPU 是 RDNA3+ 16CU 大概 RTX-2050 的效能，但因為可以 DDR5-5600 所以擴充性會比 Strix Halo 只能用 LPDDR5x 來得好。
選 Strix Point 就等同於犧牲了當初追求的效能，但優點是低功耗而且便宜。
是不是應該等 Strix Point 出來組一台 128GB 的平台來跑跑小模型就好。
相比多卡的方案用 iGPU 的好處就是低功耗，但效能實在是天差地別。
有人也有類似的煩惱嗎?
我自己的話預算希望是 100k 以內，最多捏到 150k。

-----
Sent from JPTT on my Xiaomi 23127PN0CG.

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.35.51 (臺灣)

※ PTT 網址

→

popblue 06/16 16:05何不先用AWS測試你需要什麼硬體規格再來

確實好像可以先去雲端平台租高階 CPU 來玩玩看，這我倒是之前沒想過。之前對於雲端平台就只想到租 GPU 而已。

→

popblue 06/16 16:05買？

→

moonlightz 06/16 16:07用mac會不會比較好？

Mac 的話剛看了下 Mac Studio 好像也不是不行，但稍微爆預算。

推

greg7575 06/16 16:144090 屌打各式CPU

推

vieris 06/16 16:30用cpu跑太慢了用gpu的話沒有40g以上的ram

→

vieris 06/16 16:30根本塞不進LLM 有自己訓練的需求不如去租s

→

vieris 06/16 16:30erver來用

我的需求只有推理，所以不需要考慮租用大 GPU 來訓練。

→

scarbywind 06/16 16:31去對岸挖過時的EPYC比較有機會吧

→

scarbywind 06/16 16:34https://youtu.be/oDIaHj-CGSI

→

scarbywind 06/16 16:35如果你有辦法用cpu去跑的話

→

scarbywind 06/16 16:3624通道 40萬台幣

→

scarbywind 06/16 16:37不過這好像跟過時沒關係(X)

嚴重爆預算這真的捏不了...

→

spfy 06/16 16:42所以你還沒測過CPU跑的效果？

我有先用目前的配備用 CPU 跑過，7b q4 大概 12 t/s，我覺得已經夠用了。但如果想要跑大一點的模型像是 70b q4 的話就只有 0.9 t/s，遠遠達不到可用的狀態。內文裡面少講一點就是如果改用 Strix Point 的話就是日常使用沒問題，但就跟大模型說掰掰了。以換換病的比喻就是吃了止痛藥但未來可能還會發作。

推

ptta 06/16 16:47colab pro, AWS都可以先測試一下？

→

ptta 06/16 16:47花個幾百塊台幣而已

嗯嗯我覺得我應該會朝著使用雲端平台租個高階 CPU 來先試試看效果

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:05

→

kivan00 06/16 17:12先試看看花多少時間建立環境跟調整用用

→

kivan00 06/16 17:12看囉 Nvidia猛的是在生態

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:12:59 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:13:34 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:14:41 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:15:28 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:17:45

→

yymeow 06/16 17:32我自己跑GPT的心得是，瓶頸在GPU

推

AIRURU 06/16 17:33可以考慮用vast租2-4張4090跑跑看感受下效

→

AIRURU 06/16 17:33果

我的用途會比較像是長期在線的，主要會拿來跑 code completion, 日文翻譯和 rag。如果是租用 4 張 4090 的話感覺長期使用成本太高。

→

yymeow 06/16 17:33然後還跟VRAM有關係，VRAM不夠，給的文章

→

yymeow 06/16 17:34長一點，就讀不下去了

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 17:46:12

推

AIRURU 06/16 17:55我的意思是先用租的確認模型執行需要的vra

→

AIRURU 06/16 17:55m，例如先跑q4評估精度、速度可不可用上下

→

AIRURU 06/16 17:55文要多長，如果tps很夠用可以再考慮是否降

→

AIRURU 06/16 17:55級改更多卡湊vram

是不是即使是大模型上在實務上還是比較建議用多卡 GPU 而非 CPU 呀。當初會首要考慮 CPU 主要是因為覺得推理用不到那麼多的算力，所以想說選 CPU 比較好擴充 ram。畢竟我看 llama.cpp 的討論串裡面大家分享出來的效能真的就是跟 memory bandwidth 成正比，不論是 CPU 還是 GPU 都是這個結果。

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:13:42

→

narukaza 06/16 18:23這預算怎麼會是選INTEL，連垃圾佬都不

→

narukaza 06/16 18:23撿的東西(X

→

narukaza 06/16 18:23EPYC 7002 7003對岸撿不是隨便都比W5-3

→

narukaza 06/16 18:23435好嗎，你看我剛撿的7K62單顆都吊打3

→

narukaza 06/16 18:23435...你這預算都可以組雙路了吧

當初看上那顆是因為是 8 通道 DDR5 OAO

推

FXW11314 06/16 18:31不是，你都已經研究到知道這玩意兒很吃

→

FXW11314 06/16 18:31memory bandwidth 了怎麼還會想用CPU跑

→

FXW11314 06/16 18:31？DDR跟GDDR是可以差一個數量級的欸

推

Ghosts 06/16 18:353090x4 + nvlink(非必要) 最簡單

→

Ghosts 06/16 18:35價格也不會到無法負擔，只是二手風險高

→

Ghosts 06/16 18:35llama.cpp的問題是高併發會輸vllm

→

Ghosts 06/16 18:35除非要用cpu+gguf 4bit之類的模型

→

Ghosts 06/16 18:35不然個人偏好還是vllm+gpu

→

Ghosts 06/16 18:37然後12t/s超慢，顯卡隨便都能破百以上

推

FXW11314 06/16 18:40再說即使只跑推理本質上還是一堆矩陣運

→

FXW11314 06/16 18:40算，GPU還是比CPU有優勢

確實，之後也找一些二手卡來試試看多卡好了

噓

jeffguoft 06/16 18:44這排版沒人噓？

※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:45:16 ※ 編輯: sachialanlus (118.160.35.51 臺灣), 06/16/2024 18:47:21

→

sachialanlus 06/16 18:55感謝大家的建議，真的看到好多之前

→

sachialanlus 06/16 18:55沒有注意的盲點。我想我應該會先試

→

sachialanlus 06/16 18:56試看租高階 CPU 和多卡的機器來比較

→

sachialanlus 06/16 18:56看看，如果效能差異很明顯的話就直

→

sachialanlus 06/16 18:56接買多卡來組了。感謝大家~

推

AIRURU 06/16 19:35用最丐的3060測試堆vram也比cpu快多了，70

→

AIRURU 06/16 19:35B-Q4

→

AIRURU 06/16 19:35預算夠就直上兩張4090比較實在

→

AIRURU 06/16 19:35http://i.imgur.com/yvoSQLW.jpg

→

AIRURU 06/16 19:35http://i.imgur.com/ScvLEEh.jpg

推

aegis43210 06/16 20:49推論要用支援AMX指令集的CPU

推

aegis43210 06/16 20:54不然就要模型有支援老黃的推論單元

→

aegis43210 06/16 20:55EPYC又不支援AMX，最差選擇

推

jeff85898 06/16 21:16除非是對資料隱私有需求不然自己架LLM

→

jeff85898 06/16 21:16做推論電腦和冷氣電費、噪音加一加成

→

jeff85898 06/16 21:16本太高了

→

jeff85898 06/16 21:16http://i.imgur.com/JHIn78E.jpg

推

jeff85898 06/16 21:27啊如果真的要入坑就對岸撿一組EPYC組多

→

jeff85898 06/16 21:27卡或是用ARM Mac跑也許會比較安靜省電

→

nemo33 06/16 21:49AWS EC2 G5/G6 跑 inference

推

ClixTW 06/16 22:41我跑Commamd R，記憶體沒爆還是慢到無法

→

ClixTW 06/16 22:41接受（大概每秒1Token），處理器也跑不滿

→

ClixTW 06/16 22:41，還是給VRAM跑吧

推

shiauber 06/16 23:26要塞70b的就建議直上租借了...

→

shiauber 06/16 23:2670b 也只是入門

→

shiauber 06/16 23:26剛剛看到老黃推出了 340b

→

shiauber 06/16 23:26稍微看了一下要inference

→

shiauber 06/16 23:26至少兩張 A100 or 一張 h100

→

shiauber 06/16 23:30這段演化真的衝很快，還是是老黃說了算

→

shiauber 06/16 23:30總之多學多看實作真的可以省一點

→

shiauber 06/16 23:30論文現在是天天噴發 llama2才發布多久

→

shiauber 06/16 23:30llama3就出來迭代太快了

→

DLHZ 06/17 00:04你這完全沒研究的不如先去租個容器來用看看

→

DLHZ 06/17 00:04再說

推

jyhfang 06/17 05:04有個麻煩的地方現在這些模型和硬體超級

→

jyhfang 06/17 05:05快自己買硬體弄這些會不會很快就跟不上

→

jyhfang 06/17 05:05更好的模型的基本需求? 更高效率的硬體

→

jyhfang 06/17 05:06或是更棒的模型但基本需求也快速提升

→

jyhfang 06/17 05:07之類的這跟現在一般自組電腦對應的需求

→

jyhfang 06/17 05:07完全不同

推

ChouEita 06/17 09:06建議你好好研究模型Inference 是用什麼

推

RoarLiao 06/17 11:08現在噴發期除發為了賺錢不然真的不建議

→

RoarLiao 06/17 11:08為了興趣砸大錢

推

RoarLiao 06/17 11:10然後所有人都在搞gpu的項目為什麼要自己

→

RoarLiao 06/17 11:11想繞過去用cpu搞自己....

其他人也閱讀了

PTT 熱門相關