PTT推薦

[心得] 資料中心投資方向

看板Stock標題[心得] 資料中心投資方向作者
LDPC
(Channel Coding)
時間推噓58 推:60 噓:2 →:24

"遇到任何不能解決的事情 就用C4炸彈" <謠言終結者>

在AI界這邊也是
"遇到任何無法解決的事情 就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落 只要看到這** 就跳回來這默念這句話)

#算法
從算法這邊看 這陣子不論是DeepSeek也好 甚至去年之前的SSM算法
(比Transformer更具有壓縮資料性) 都會塑造出算力需求是否不在重要?
又或者MoE架構(早期MoE 大模型可追朔到法國的Mistral) 在推論端都可以使用更少的
模型容量(activatino parameters) 去達到Dense 大模型效能 是否意味我們不在需要
高算力? 再拋棄算力無用論 先看往過去幾個歷史發展

#數據
從數據這邊看 在更早之前 微軟提出"Textbook is all you need"
證明數據高品質可以讓 小模型3B可以接近數十B模型效能 從早期開始野生數據
到去精煉數據 都證明數據的品質決定模型的效能 那是否數據高品質
就可以減低算力需求? 然而在講數據品質前 得先回到
數據這邊的發展史

### (賺p幣 你可以跳過 沒股點)
這世界充滿大量無標籤野生數據 而無標籤的數據通常都是野生數據
並充滿噪聲干擾 而有標籤的數據通常都昂貴 如何利用大量野生數據和少量標籤數據
就變成這幾年的AI算法發展史 這幾年模式
通常都是第一階段先用野生數據去做預訓練 概念有點像文字接龍一樣
或者挖空部分野生數據 叫模型去猜數據被消去的部分長怎樣
又或者用多模態野生數據作預訓練時
去比較 哪兩個多模態屬於同類型 哪兩種多模態數據是不同類型 等等 這樣訓練完模型
通常就做Foundation Model 就想成初始模型 這類模型就是能從野生數據 學到分類
和預測野生數據該長怎樣 但做不了任何事情 他就是只能做分類 沒了


此時為了讓模型做更多複雜的事情 在第二階段訓練 開始運用了高品質標籤數據
這些高品質標籤數據 通常都是一個特地場景 你希望模型能處理的事情
可能是文字翻譯 可能是物體檢測 可能是資訊搜尋和回答問題 透過數據和給的標籤答案模型學會到了

到此為止 模型還是缺乏所謂智能 無法舉一反三 然後OpenAI介紹出RLHF 畢竟OpenAI
在這領域有PPO設計 這第三階段就是所謂的透過人類給任務和人類的認知
機器去學 這階段也可視為是一種需要答案/標籤的數據反饋 透過RLHF後
模型此時展現了有擴佔性和泛化等充滿前景的驚人效果 但如何更好地提高模型效能?

時間線回到了2022~2023
OpenAI發現 透過模型參數變大 數據變大 此時模型的思考能力出現了湧現效果
模型大小會決定數據大小 數據大小和模型大小 決定算力需求(** @v@b 默念上面)
具體公式看這
https://blog.csdn.net/taoqick/article/details/132009733
(註:DeepSeekV3 訓練成本減少是透過float8和 模型參數減少MoE架構)


接者到了2023 GPT等大模型產生後 許多AI社群開始用GPT等來造高品質的標籤數據
像是LLaVA 造出300k 多模態數據 讓TextLLM轉變為多模態能看到影像的LLM

此時 合成數據概念出現了 (又或者稱為distilled synthetic dataset)
就是透過設計任務 比方說給GPT看野生數據 像是圖片或影像 叫GPT找出有車子圖片
並且標注 還記得上面微軟給過高品質數據 能讓小模型打贏大模型嗎?
於是各種用GPT去合成高品質數據文章紛紛出現

接者要來講到Chain-of-thought這概念 在各種第一代LLM出現後 一幫人在開始研究
再不牽涉到重新去調教模型(Training)情況下 如何讓模型變更聰明點?
這時候思考練概念出現 核心概念就是 把一個問題拆成子問題 讓模型更好回答

比方說 你講一句中文 然後叫你家LLM翻成英文 他很可能有時候會翻不好
因為你給的指令是要求LLM一次性的 (一步到位) 答出問題

如果用COT (Chain-of-thought) 此時你可以下指令說 先把我說的中文轉成中文文字
第二步再把中文文字轉成英文文字 這時候模型翻譯能力品質就大幅上升

在設計拆解任務時 你也可以用比較法 比方說 你如果問LLM
我去台北最快的方式是何種? LLM可能會說 跳入蟲洞就可以瞬間到台北這種幻覺回答
又或者根本打不出

而在設計COT 你可以第一步問LLM 去一個地點有哪些方法 然後第二步說 根據每個方法
估出從我現在地點到台北時間 第三步說 從裡面挑出最快的方式 然後模型就能正確回答

到此為止 似乎覺得你家模型可以無成本變得很聰明了 對吧!!!然後在模型效能裡面
有一個隱藏成本 叫做Infenrece Time/Latency 就是你花多少時間得到你要答案
透過拆解問題 你需要等待時間變長了 但很多場景 你希望模型快速給你答案
但你又希望答案是充滿智能的回答 那該怎樣辦?? (** 默念上句 @v@b)

而算力大小 可以決定Latency 通常我們用Tokens/sec來衡量這指標

然後為何提到COT?因為OpenAI在去年開始把CoT融入訓練一環 改進了RLHF更好的效果
拓展模型思考(reasoning)能力

現在AI界開始反思一個問題 我們能不能不需要用大量人力去做
第三步RLHF 但透過巧妙設計RL和用第一代母模型(e.g. ChatGPT)來合成有思考性質
的數據? 尤其是在第一階段的野生數據 現實中我們已經用完了 現在需要更多的
標籤數據來增加模型的效能 這個論點就是Deepseek R1想驗證的 但這牽涉到好幾個問題沒有第一代人類反饋LLM是無法做出來的 同時這個LLM還得是多模態能具有思考鏈CoT
才能合成良好的思考數據(Reasoning Sythentic Dataset)

有了這玩意 你就可以開始讓模型去教模型 然後無窮迴圈進化
因此你也看到李飛飛那篇是拿(gemini-2.0-flash-thinking )具有思考的來設計COT
https://arxiv.org/abs/2501.19393 合成數據 這篇只使用SFT 也就是上面第二階段
來訓練模型 證明數據品質和思考重要 所以某老兄拿這篇diss 還說打不贏deepseek-r1
就是一個岳飛打張飛 因為r1有用第三步RF 這篇只是要開源合成數據 用SFT
展示合成數據品質 還瘋狂diss這篇亂定義distill概念

從上上週開始 整個AI界都開始嘗試研究 如何用合成數據來教導模型智慧 也就是
如何更適當的設計RL 來讓模型教模型 就是走向alphago-zero概念 但沒有上述這些
歷史巨人肩膀 我們是無法走到這

###賺p幣結束回到股點

#算力

AI在落地端 通常是用Inference效能來決定 裡面有兩個重點 一個是速度已經提過
一個就是能支撐多少用戶 而B200就是這兩者的最漂亮的作品 參考下圖
https://ibb.co/F4mXCnLd

通常算力越多 能支撐的客戶請求queries就越多 速度也就越快 (** @v@b)
參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能

而在訓練端 Scaling Law 預測了模型大小和數據以及效能的一個線性關係
就算算法上或者數據上改進 也都只是讓Scaling Law 那條斜線更加傾斜
但模型大小仍然會決定智能 因此也意味算力需求是一個線性向上 (** @v@b)

### 股點重點 ###

在講數據中心之前 先回到AI的一個基本方向


AI就是由三個因素疊加起來 算法 資料 算力 就像三原色一樣 缺一不可
算法跟資料算是每個國家都可以自己掌握 唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積

於是 美國第一個看到這點 開始瘋狂的捲資料中心建設
阿祖的故事之前說過了
https://reurl.cc/WNmR8D
底下有個衛星空照圖 https://ibb.co/y4Ww9s6
2022阿祖在蓋傳統數據中心 結果AI起來後 為因應AI數據中心 2023五月 阿祖直接把
蓋到一半的數據中心拆掉 重新蓋一次 只為了能更安裝GB200 重新設計散熱和電力
現在就是裁員裁員裁員 瘋狂蓋AI基礎建設

資料中心相關
https://www.youtube.com/watch?v=UczALD7ZZDU
美國2868個
歐洲300多個


然而在AI發展起來 所有新型數據中心變得重要
所以法國開始AI資料中心項目
https://reurl.cc/6jn7mO
泰國也開始了 Siam AI 額外追加2B
https://www.kaohooninternational.com/technology/552490

而中國也開始了 GDS萬国数据 在馬來西亞 新加波開始基建數據中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其餘印度和中東也都開始在建設自己的AI基建算力平台

而老黃就是這波數據中心大贏家 一但新型數據中心都走老黃規格 那蘇媽/ARM等三方
就會越難打這場戰爭 這也是為何這兩家最近動作頻繁在加速 老黃就算吃不到中國
也有大機會其他國家得去吃


結論:基於這接下來發展 你可以按照數據 算力 演算法三方向選公司投資
算力:老黃/AVGO
數據: Databrick(要上市了 我會買爆他) Scale AI
算法:狗家 臉家 OpenAI(買不到 @@ 考慮去那掃廁所看能不能給認股)


至於說啥AI現在是已經 輪轉到投資落地場景公司 呵呵 @v@b
然後這也意味台G是一切的基石 @@


--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.59.161.237 (美國)
PTT 網址
※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:45:04 ※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:45:54 ※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:46:52 ※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:47:49

lyhorcish 02/17 14:47還好我直接拉到最後看結論

richer23 02/17 14:47樓下幫我看

※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:50:41

harry458031 02/17 14:50不知道 一堆大家都聽過的大公司+一間新創公司

harry458031 02/17 14:50很像詐騙集團騙人上車的手法

※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:54:24

kaiyan 02/17 14:53是方

※ 編輯: LDPC (172.59.161.237 美國), 02/17/2025 14:56:31

ntnuljg 02/17 14:56懶人包呢

rebel 02/17 14:56算力還是需要的 畢竟才剛開始建設不久 但要想的是

rebel 02/17 14:56所需的算力天花板是不是比原先預期的低 假設原本五

rebel 02/17 14:56年才能累積到想要的算力 現在是不是三年的累積量其

rebel 02/17 14:56實就夠

goodapple80702/17 14:58Databrick怎麼聽起來怪怪的XD

stlinman 02/17 14:59電腦、傳統伺服器、手機...發展史,那個不是要求越

stlinman 02/17 15:00高的算力跟節能(?)所以AI算力需求還是很缺。

BPineApple 02/17 15:00寫那麼多誰看的完

rebel 02/17 15:00但不代表沒天花板 看看筆電 看看手機

lise1017 02/17 15:01你先學會長話短說用

pornpig32 02/17 15:0199AMD

nexerodo 02/17 15:01算力 算法 數據 還有能源

zzahoward 02/17 15:01舅舅AMD

ga278057 02/17 15:02伊雲谷呢

tomdavis 02/17 15:02台灣的就算了吧 都炒作的 最快也要等美國成功才會抄

rebel 02/17 15:02原po是有料的 有一堆過去的文章可印證 能不能消化

rebel 02/17 15:02吸收找到賺錢的機會就看個人了 畢竟不是人人都有賺

rebel 02/17 15:02大錢的能力

edgar76321 02/17 15:03還好都直接看結論 推

tomdavis 02/17 15:03賺錢的方式就是相信網紅說的AI算力過剩殺價競爭

tomdavis 02/17 15:04反正散戶還是會自己嚇自己恐慌賣股 做空好賺!

tomdavis 02/17 15:05而且網紅還有自營操盤手一起操縱股價 賣到散戶恐慌!

TIPPK 02/17 15:05跟著大爺買 妻妾成群家靠海

zqzwxec 02/17 15:06DBR跟數據有關?

irawang 02/17 15:07推是方+1

freshman 02/17 15:10買台積電

mandy38 02/17 15:15謝謝解釋 有學習

u6vu040531 02/17 15:17綠電啊 怎麼沒人提

Kevinsun 02/17 15:23寫的很好

strlen 02/17 15:23https://tinyurl.com/ytx2ap2s 不是有AI 還問懶人包

kausan 02/17 15:26沒gtp第一步就不會有other但現在other也有機會幹掉g

kausan 02/17 15:26tp,關鍵就是算力

aa6300158 02/17 15:26好文推,有看完。

sdbb 02/17 15:3499nvdl

EDhsiao 02/17 15:36好文不推不行

ola1a1217 02/17 15:37感謝業界人士分享~

metallolly 02/17 15:38好~我也要買爆 Databrick

kami0857 02/17 15:40謝分享

sdbb 02/17 15:40對,應該要找尚未被炒高的股票

sdbb 02/17 15:41Databricks

sdbb 02/17 15:43複數,有s

chehsien 02/17 15:45Databricks真的買爆 MongoDB 資料庫公司怎麼看?

hprince 02/17 15:56微軟跟open ai有關係買微軟也可以吧?

Cash 02/17 16:15databricks j輪募資有meta,值得期待

josephpu 02/17 16:17推分享

spike1215 02/17 16:21美國大爺QQ

fluffyradish02/17 16:25最後一句重點

pc007ya 02/17 16:32是方 是圓 繼續化緣

a125wind 02/17 16:34感謝分析,等databrick IPO

yesmans 02/17 16:37這麼好的文章 不推爆嗎!!

wahaha99 02/17 16:40可是板上會有人說這些是空中樓閣 XDDD

HenryLin123 02/17 16:41NVDL都回60幾了還要救?

PureAnSimple02/17 16:43算力永遠不嫌多 根本不用分析

roots5071 02/17 16:54寫的很好,但是我看不懂,買就對了!

emind 02/17 17:13thesis: scaling law persists. until …

CCPenis 02/17 17:29我只懂最後

l145678p 02/17 17:59謝謝分享

c928 02/17 17:59複製貼上真好用

bobovillage 02/17 18:59感謝

Elier87 02/17 19:11受益良多,謝謝分享

WD640G 02/17 19:15優文謝謝

linweida 02/17 19:38最後一句話我看得懂哈哈

Alexstar 02/17 19:49Databrick何時上市,需要摳訊?

fdkevin 02/17 20:09推爆

ilikekobe01 02/17 20:09好文給推

jerrychuang 02/17 20:18沒有MU,QQ

ppuuppu 02/17 20:30不推不行

jo4 02/17 20:43感謝摳訊 我也想跟單

necrophagist02/17 20:47寫得很好 不是做這行的也能讀懂七八成

MiniArse 02/17 22:20真有心 寫這麼多 XD

apple123773 02/17 22:27

jyhfang 02/17 23:48棒 整個脈絡清楚呈現 謝大大分享

LINPINPARK 02/18 00:09資料中心我看香港房地產基金有去投日本

LINPINPARK 02/18 00:10在日本要蓋一個40兆萬的園區

LINPINPARK 02/18 00:11叫做 日本 府中園區

LINPINPARK 02/18 00:11請教日本資料中心這方面有什麼優勢?

通常資料中心就是房地產的好商機 Blackrock都在搶土地和搶電跟水協調 日本大概也是會走類似路線 府中園區是透過萬國數據去合作 @@ 其餘就不清楚了

https://hk.investing.com/news/stock-market-news/article-551210

https://finance.sina.com.cn/jjxw/2024-12-30/doc-inecfrav1288874.shtml

https://uanalyze.com.tw/articles/412077094

通常每個國家都要自己的新型數據中心 只要有大量地 水和便宜電 那通常就是個好地點

※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 02:57:16 ※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 03:00:28 ※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 03:01:47

lester0311 02/18 09:12

vzQBf 02/18 19:06難得有非政治網軍的文章QQ

LINPINPARK 02/18 20:21原來如此,感謝,那看起來日本水電配套都做得很好,

LINPINPARK 02/18 20:21招商較順