[心得] 資料中心投資方向
"遇到任何不能解決的事情 就用C4炸彈" <謠言終結者>
在AI界這邊也是
"遇到任何無法解決的事情 就用算力出奇蹟" < @v@b AI社群>
(在下方任何段落 只要看到這** 就跳回來這默念這句話)
#算法
從算法這邊看 這陣子不論是DeepSeek也好 甚至去年之前的SSM算法
(比Transformer更具有壓縮資料性) 都會塑造出算力需求是否不在重要?
又或者MoE架構(早期MoE 大模型可追朔到法國的Mistral) 在推論端都可以使用更少的
模型容量(activatino parameters) 去達到Dense 大模型效能 是否意味我們不在需要
高算力? 再拋棄算力無用論 先看往過去幾個歷史發展
#數據
從數據這邊看 在更早之前 微軟提出"Textbook is all you need"
證明數據高品質可以讓 小模型3B可以接近數十B模型效能 從早期開始野生數據
到去精煉數據 都證明數據的品質決定模型的效能 那是否數據高品質
就可以減低算力需求? 然而在講數據品質前 得先回到
數據這邊的發展史
### (賺p幣 你可以跳過 沒股點)
這世界充滿大量無標籤野生數據 而無標籤的數據通常都是野生數據
並充滿噪聲干擾 而有標籤的數據通常都昂貴 如何利用大量野生數據和少量標籤數據
就變成這幾年的AI算法發展史 這幾年模式
通常都是第一階段先用野生數據去做預訓練 概念有點像文字接龍一樣
或者挖空部分野生數據 叫模型去猜數據被消去的部分長怎樣
又或者用多模態野生數據作預訓練時
去比較 哪兩個多模態屬於同類型 哪兩種多模態數據是不同類型 等等 這樣訓練完模型
通常就做Foundation Model 就想成初始模型 這類模型就是能從野生數據 學到分類
和預測野生數據該長怎樣 但做不了任何事情 他就是只能做分類 沒了
此時為了讓模型做更多複雜的事情 在第二階段訓練 開始運用了高品質標籤數據
這些高品質標籤數據 通常都是一個特地場景 你希望模型能處理的事情
可能是文字翻譯 可能是物體檢測 可能是資訊搜尋和回答問題 透過數據和給的標籤答案模型學會到了
到此為止 模型還是缺乏所謂智能 無法舉一反三 然後OpenAI介紹出RLHF 畢竟OpenAI
在這領域有PPO設計 這第三階段就是所謂的透過人類給任務和人類的認知
機器去學 這階段也可視為是一種需要答案/標籤的數據反饋 透過RLHF後
模型此時展現了有擴佔性和泛化等充滿前景的驚人效果 但如何更好地提高模型效能?
時間線回到了2022~2023
OpenAI發現 透過模型參數變大 數據變大 此時模型的思考能力出現了湧現效果
模型大小會決定數據大小 數據大小和模型大小 決定算力需求(** @v@b 默念上面)
具體公式看這
https://blog.csdn.net/taoqick/article/details/132009733
(註:DeepSeekV3 訓練成本減少是透過float8和 模型參數減少MoE架構)
接者到了2023 GPT等大模型產生後 許多AI社群開始用GPT等來造高品質的標籤數據
像是LLaVA 造出300k 多模態數據 讓TextLLM轉變為多模態能看到影像的LLM
此時 合成數據概念出現了 (又或者稱為distilled synthetic dataset)
就是透過設計任務 比方說給GPT看野生數據 像是圖片或影像 叫GPT找出有車子圖片
並且標注 還記得上面微軟給過高品質數據 能讓小模型打贏大模型嗎?
於是各種用GPT去合成高品質數據文章紛紛出現
接者要來講到Chain-of-thought這概念 在各種第一代LLM出現後 一幫人在開始研究
再不牽涉到重新去調教模型(Training)情況下 如何讓模型變更聰明點?
這時候思考練概念出現 核心概念就是 把一個問題拆成子問題 讓模型更好回答
比方說 你講一句中文 然後叫你家LLM翻成英文 他很可能有時候會翻不好
因為你給的指令是要求LLM一次性的 (一步到位) 答出問題
如果用COT (Chain-of-thought) 此時你可以下指令說 先把我說的中文轉成中文文字
第二步再把中文文字轉成英文文字 這時候模型翻譯能力品質就大幅上升
在設計拆解任務時 你也可以用比較法 比方說 你如果問LLM
我去台北最快的方式是何種? LLM可能會說 跳入蟲洞就可以瞬間到台北這種幻覺回答
又或者根本打不出
而在設計COT 你可以第一步問LLM 去一個地點有哪些方法 然後第二步說 根據每個方法
估出從我現在地點到台北時間 第三步說 從裡面挑出最快的方式 然後模型就能正確回答
到此為止 似乎覺得你家模型可以無成本變得很聰明了 對吧!!!然後在模型效能裡面
有一個隱藏成本 叫做Infenrece Time/Latency 就是你花多少時間得到你要答案
透過拆解問題 你需要等待時間變長了 但很多場景 你希望模型快速給你答案
但你又希望答案是充滿智能的回答 那該怎樣辦?? (** 默念上句 @v@b)
而算力大小 可以決定Latency 通常我們用Tokens/sec來衡量這指標
然後為何提到COT?因為OpenAI在去年開始把CoT融入訓練一環 改進了RLHF更好的效果
拓展模型思考(reasoning)能力
現在AI界開始反思一個問題 我們能不能不需要用大量人力去做
第三步RLHF 但透過巧妙設計RL和用第一代母模型(e.g. ChatGPT)來合成有思考性質
的數據? 尤其是在第一階段的野生數據 現實中我們已經用完了 現在需要更多的
標籤數據來增加模型的效能 這個論點就是Deepseek R1想驗證的 但這牽涉到好幾個問題沒有第一代人類反饋LLM是無法做出來的 同時這個LLM還得是多模態能具有思考鏈CoT
才能合成良好的思考數據(Reasoning Sythentic Dataset)
有了這玩意 你就可以開始讓模型去教模型 然後無窮迴圈進化
因此你也看到李飛飛那篇是拿(gemini-2.0-flash-thinking )具有思考的來設計COT
https://arxiv.org/abs/2501.19393 合成數據 這篇只使用SFT 也就是上面第二階段
來訓練模型 證明數據品質和思考重要 所以某老兄拿這篇diss 還說打不贏deepseek-r1
就是一個岳飛打張飛 因為r1有用第三步RF 這篇只是要開源合成數據 用SFT
展示合成數據品質 還瘋狂diss這篇亂定義distill概念
從上上週開始 整個AI界都開始嘗試研究 如何用合成數據來教導模型智慧 也就是
如何更適當的設計RL 來讓模型教模型 就是走向alphago-zero概念 但沒有上述這些
歷史巨人肩膀 我們是無法走到這
###賺p幣結束回到股點
#算力
AI在落地端 通常是用Inference效能來決定 裡面有兩個重點 一個是速度已經提過
一個就是能支撐多少用戶 而B200就是這兩者的最漂亮的作品 參考下圖
https://ibb.co/F4mXCnLd
通常算力越多 能支撐的客戶請求queries就越多 速度也就越快 (** @v@b)
參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能
而在訓練端 Scaling Law 預測了模型大小和數據以及效能的一個線性關係
就算算法上或者數據上改進 也都只是讓Scaling Law 那條斜線更加傾斜
但模型大小仍然會決定智能 因此也意味算力需求是一個線性向上 (** @v@b)
### 股點重點 ###
在講數據中心之前 先回到AI的一個基本方向
AI就是由三個因素疊加起來 算法 資料 算力 就像三原色一樣 缺一不可
算法跟資料算是每個國家都可以自己掌握 唯獨算力是牽涉到基礎大建設
是需要金錢和時間堆積
於是 美國第一個看到這點 開始瘋狂的捲資料中心建設
阿祖的故事之前說過了
https://reurl.cc/WNmR8D
底下有個衛星空照圖 https://ibb.co/y4Ww9s6
2022阿祖在蓋傳統數據中心 結果AI起來後 為因應AI數據中心 2023五月 阿祖直接把
蓋到一半的數據中心拆掉 重新蓋一次 只為了能更安裝GB200 重新設計散熱和電力
現在就是裁員裁員裁員 瘋狂蓋AI基礎建設
資料中心相關
https://www.youtube.com/watch?v=UczALD7ZZDU
美國2868個
歐洲300多個
然而在AI發展起來 所有新型數據中心變得重要
所以法國開始AI資料中心項目
https://reurl.cc/6jn7mO
泰國也開始了 Siam AI 額外追加2B
https://www.kaohooninternational.com/technology/552490
而中國也開始了 GDS萬国数据 在馬來西亞 新加波開始基建數據中心
https://www.youtube.com/watch?v=ApC9qiAT5Ew
https://www.facebook.com/watch/?v=338839389284780
https://reurl.cc/96mQlj
其餘印度和中東也都開始在建設自己的AI基建算力平台
而老黃就是這波數據中心大贏家 一但新型數據中心都走老黃規格 那蘇媽/ARM等三方
就會越難打這場戰爭 這也是為何這兩家最近動作頻繁在加速 老黃就算吃不到中國
也有大機會其他國家得去吃
結論:基於這接下來發展 你可以按照數據 算力 演算法三方向選公司投資
算力:老黃/AVGO
數據: Databrick(要上市了 我會買爆他) Scale AI
算法:狗家 臉家 OpenAI(買不到 @@ 考慮去那掃廁所看能不能給認股)
至於說啥AI現在是已經 輪轉到投資落地場景公司 呵呵 @v@b
然後這也意味台G是一切的基石 @@
--
還好我直接拉到最後看結論
樓下幫我看
不知道 一堆大家都聽過的大公司+一間新創公司
很像詐騙集團騙人上車的手法
是方
懶人包呢
算力還是需要的 畢竟才剛開始建設不久 但要想的是
所需的算力天花板是不是比原先預期的低 假設原本五
年才能累積到想要的算力 現在是不是三年的累積量其
實就夠
Databrick怎麼聽起來怪怪的XD
電腦、傳統伺服器、手機...發展史,那個不是要求越
高的算力跟節能(?)所以AI算力需求還是很缺。
寫那麼多誰看的完
但不代表沒天花板 看看筆電 看看手機
你先學會長話短說用
99AMD
算力 算法 數據 還有能源
舅舅AMD
伊雲谷呢
台灣的就算了吧 都炒作的 最快也要等美國成功才會抄
原po是有料的 有一堆過去的文章可印證 能不能消化
吸收找到賺錢的機會就看個人了 畢竟不是人人都有賺
大錢的能力
還好都直接看結論 推
賺錢的方式就是相信網紅說的AI算力過剩殺價競爭
反正散戶還是會自己嚇自己恐慌賣股 做空好賺!
而且網紅還有自營操盤手一起操縱股價 賣到散戶恐慌!
跟著大爺買 妻妾成群家靠海
DBR跟數據有關?
推是方+1
買台積電
謝謝解釋 有學習
綠電啊 怎麼沒人提
寫的很好
https://tinyurl.com/ytx2ap2s 不是有AI 還問懶人包
沒gtp第一步就不會有other但現在other也有機會幹掉g
tp,關鍵就是算力
好文推,有看完。
99nvdl
好文不推不行
感謝業界人士分享~
好~我也要買爆 Databrick
謝分享
對,應該要找尚未被炒高的股票
Databricks
複數,有s
Databricks真的買爆 MongoDB 資料庫公司怎麼看?
微軟跟open ai有關係買微軟也可以吧?
databricks j輪募資有meta,值得期待
推分享
美國大爺QQ
最後一句重點
是方 是圓 繼續化緣
感謝分析,等databrick IPO
這麼好的文章 不推爆嗎!!
可是板上會有人說這些是空中樓閣 XDDD
NVDL都回60幾了還要救?
算力永遠不嫌多 根本不用分析
寫的很好,但是我看不懂,買就對了!
thesis: scaling law persists. until …
我只懂最後
謝謝分享
複製貼上真好用
感謝
受益良多,謝謝分享
優文謝謝
最後一句話我看得懂哈哈
Databrick何時上市,需要摳訊?
推爆
好文給推
沒有MU,QQ
不推不行
感謝摳訊 我也想跟單
寫得很好 不是做這行的也能讀懂七八成
真有心 寫這麼多 XD
推
棒 整個脈絡清楚呈現 謝大大分享
資料中心我看香港房地產基金有去投日本
在日本要蓋一個40兆萬的園區
叫做 日本 府中園區
請教日本資料中心這方面有什麼優勢?
通常資料中心就是房地產的好商機 Blackrock都在搶土地和搶電跟水協調 日本大概也是會走類似路線 府中園區是透過萬國數據去合作 @@ 其餘就不清楚了
https://hk.investing.com/news/stock-market-news/article-551210https://finance.sina.com.cn/jjxw/2024-12-30/doc-inecfrav1288874.shtml
https://uanalyze.com.tw/articles/412077094
通常每個國家都要自己的新型數據中心 只要有大量地 水和便宜電 那通常就是個好地點
※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 02:57:16 ※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 03:00:28 ※ 編輯: LDPC (76.21.72.78 美國), 02/18/2025 03:01:47推
難得有非政治網軍的文章QQ
原來如此,感謝,那看起來日本水電配套都做得很好,
招商較順
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/TT58ZZCb.png)
21
Re: [問卦] 為什麼AI 這2-3年進步這麼神速?我剛好研究所讀資工領域的。 你應該知道在這次AI大模型震撼世人之前,電腦科學界在紅啥嗎?? 就是Big Data,大數據,資料探勘。 但是因為"算力"不足,所以在十年前,幾乎都是關注於儲存與基礎處理而已。 譬如NoSQL數據庫與一些簡單的資料探勘,那個時候SVM分析歸類資料可火的。![Re: [問卦] 為什麼AI 這2-3年進步這麼神速? Re: [問卦] 為什麼AI 這2-3年進步這麼神速?](https://jochen-hoenicke.de/queue/mempool-20201126-eth.png)
7
[閒聊] 日本提出AI白皮書 想讓世界看到日本日本独自のAIモデル開発は難しい 自民党が「AIホワイトペーパー(案)」公開 原標題是這個 本白皮書的焦點之一是,是否會針對各國的此類運動提出針對日本自己的人工智能開發 基礎設施的政策。![[閒聊] 日本提出AI白皮書 想讓世界看到日本 [閒聊] 日本提出AI白皮書 想讓世界看到日本](https://image.itmedia.co.jp/news/articles/2303/31/cover_news119.jpg)
6
Re: [問卦] 為何台灣是AI晶片重要生產地,但是AI軟體模型都沒一般而言,所謂的AI Chip指得是特化過往CPU功能的晶片,過往CPU集成的晶片會強調指 令控制跟緩存的功能,但DL/AI模型其實更強調運算元(ALU)所以像NPU、GPU就是特化計算 元其他的功能就縮到最小,所謂AI專用晶片本質上就是這樣的一種類CPU特化架構的晶片 。因為對於當前所有的DL模型原子化到最小計算就是在做矩陣加減乘除跟線性變換。 不過目前整個設計還是follow國外廠商的需求,所以台灣更像是代工上游廠商。當然啦!4
[問卦] 我們只是造物主用來訓練AI的數據?現在大公司訓練AI把全世界的數據用完了 然後開始用生成AI自己造數據訓練AI 那照這樣思考 我們會不會只是 造物主用來訓練模型生成的數據呢?3
Re: [問卦] AI畫奶的功力怎麼進步這麼快的?AI畫奶的技術是一種基於深度學習和圖像處理技術的應用,隨著機器學習和計算機視覺的 不斷發展,其技術水平也在不斷提高。 在過去的幾年中,AI畫奶技術已經經歷了許多重要的進步,其中包括以下幾點: 數據集的增加:AI算法需要大量的數據來進行訓練和優化, 隨著數據集的增加,AI算法可以更好地理解不同類型的圖像,從而提高奶畫的質量。3
Re: [新聞] 歷史一刻!美空軍部長親乘AI F16 高空纏鬥阿肥外商碼農阿肥啦! 很多人都忽略了發展AI的關鍵技術除了晶片外,最重要的是數據跟能源問題,接著才是關 鍵算法,這些都是台灣沒能力擁有的。 根據Meta自己開源的一些工作細節來看,當前Meta所有的算力為60萬張H100,假設這些都 全開到峰值,平均每張消耗700瓦搭配水冷散熱系統就會將近600兆瓦,這個是會將近六1
Re: [閒聊] 所以一個國家的文創產業要怎麼培養?其他的先不說,如果是純AI軟體產業的話,阿肥還是有幾句話能講的。 基本上目前所有AI算法的專利到論文發表最大國還是美國,第二名是中國,日韓大概連中美 的零頭都不到,台灣是遠輸韓國的喔。 大家現在在吹的包含政府在吹的叫做GPU晶片代工,包含伺服器組裝,裝起來後沒關建算法 模型數據就只是台顯卡很強電腦而已。
爆
[請益] 0056可以這樣操作嗎![[請益] 0056可以這樣操作嗎 [請益] 0056可以這樣操作嗎](https://i.imgur.com/z8X13Bfb.jpg)
83
Re: [心得] 山椒魚盤勢觀察![Re: [心得] 山椒魚盤勢觀察 Re: [心得] 山椒魚盤勢觀察](https://i.mopix.cc/LLOj00.jpg)
54
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性![Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性 Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性](https://img.youtube.com/vi/H_suOWdYLq0/mqdefault.jpg)
38
Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐![Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐 Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐](https://i.imgur.com/maDWxU7b.jpg)
32
[情報] 2344 華邦電 114年11月營收![[情報] 2344 華邦電 114年11月營收 [情報] 2344 華邦電 114年11月營收](https://i.mopix.cc/JF4BB2.jpg)
25
[情報] 3443 創意 11月營收16
Re: [新聞] Fed主席大熱門哈塞特表態:下周應降息 預16
[請益] 第一金最近有什麼大事要發生嗎?13
Re: [標的] 記憶體族群回檔 彎腰撿鑽石多![Re: [標的] 記憶體族群回檔 彎腰撿鑽石多 Re: [標的] 記憶體族群回檔 彎腰撿鑽石多](https://i.imgur.com/MO9jzZjb.gif)
29
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性10
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性22
Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐9
[情報] 日本兩年期公債收益率升至1.03%8
[情報] 1205 上市投信買賣超排行5
[情報] 2548 華固 10月營收 MoM 702% YoY 37447%![[情報] 2548 華固 10月營收 MoM 702% YoY 37447% [情報] 2548 華固 10月營收 MoM 702% YoY 37447%](https://i.meee.com.tw/gQ7aplg.png)
Re: [請益] 0056可以這樣操作嗎4
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性![Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性 Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性](https://i.imgur.com/4uwgTa3b.png)
1
Re: 00641R 富邦日本反1 小單多
[情報] 工紙族群多
[標的] 2454聯發科2330台積電 哪個好![[標的] 2454聯發科2330台積電 哪個好 [標的] 2454聯發科2330台積電 哪個好](https://i.imgur.com/TbK5aJcb.jpeg)
[情報] 114年12月05日 三大法人買賣金額統計表