Re: [請益] 機器學習 Nvidia Tesla T4 or Quadro RTX

hizuki 發表於 2020/4/26 下午3:18:26

看板PC_Shopping標題Re: [請益] 機器學習 Nvidia Tesla T4 or Quadro RTX作者

hizuki

(入贅桧月家，我妻彩花)時間Apr 26 15:18:26 2020推噓 3 推:3 噓:0 →:1

PTT推薦

目前確實打算等GTC 2020後再打算，因為只有一個月左右時間可能還能等

說一下目前做的功課

1. 參考 fo40225 大的文章決定除GPU部分的配置

#1SxhRJ80 (PC_Shopping)

2. Nvidia vGPU認證資料
要挑機器直接從當中挑就好了
https://www.nvidia.com/en-us/data-center/resources/vgpu-certified-servers/

Asus 不知道臺灣本部的情況如何，國外事業部的服務水準很鳥，客服根本聽不懂我們在說什麼

Cisco 價格太貴了，而且服務支援太麻煩了

Dell EMC 不理會我們，似乎是之前被放鳥太多次了，可以NVLink的只有1U機型

Huawei 不能出貨了

HPE 4U外的機器估價很慢，出貨太少的緣故吧。GPU一定要裝4塊才能出貨

Lenovo 機器是很便宜，但是全部都只能上Tesal T4也沒有NVLink

Supermicro 可以凸一下只安裝2 GPUs出貨

3. 數個效能評估文章
https://blog.exxactcorp.com/whats-the-best-gpu-for-deep-learning-rtx-2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

得出來的結論就是，論單一GPU，不考慮double precision(因為很少有用)
GPU Memory > Tensor core

4. NVLink
目前只有SXM form fator(板卡尺寸)才支援NVLink Hybrid Cube Mesh
也就是單個CPU上的GPUs之間都是用NVLink互相連接的，兩個CPUs上的GPUs是可以通過
有限通路的NVLink相互連接

而普通的NVLink只能兩個GPUs之間互相連接

至於能否變成Memory Pool或者利用複數GPUs的tensor core進行運算，我不確定效果
因為之前的機器配置的連接模式有問題

根據nVidia方面的說明，nccl能幫你完成這方面的工作，OpenMP也已經提供了相應的支援不過具體使用方式，取決於你的training framework，例如Horovod 表示是可以支援多GPUs分發，但是我還是不確定這部分的效果

5. Tesla VS Quadro VS Titan
其實沒有什麼可選的，只有那幾款Tesla才有採用SXM form factor
Titan系列的都不支援SR-IOV，如果想要VMware 下無修正使用(會損失效能)，只能考慮
Tesla或Quadro

價格上來講，Tesla會比Quadro較優，Titan是CP值最高

: → hizuki : 但是Titan要三槽位很難插，只能找美超微定機器了？ 04/18 14:36: 推 atrix : Titan rtx 只占用雙槽，不會卡到第三槽。 04/19 00:20: 散熱器會突來一點
: → atrix : 我晚點裝看看，我記得是不會卡到阿？ 04/21 10:20: → atrix : 是裝的下拉，不過多卡時，散熱就很緊 04/21 10:45: → atrix : http://i.imgur.com/SY1vtWZ.jpg 04/21 10:45