Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子
DeepSeek其實真正的創新在model的高效設計,其真正的關鍵在efficient MOE還有MLA設計這其實是2024年初DeepSeek V2就發表的東西
R1是把這個高效model設計+O1推理模型的LLM+RL合併出來的效應
我覺得歐美廠商因為本錢大所以忽略了降本增效的飛輪效應,所以第二個推理模型反而是中國公司出圈了,推理模型的Test Time Compute對模型效率的敏感性就非常強烈了,訓練中大概會涵蓋超大量的推理成本,成本降低25倍相當於研發加速25倍,我想這是OpenAI沒預料到的,現在應該很後悔公開Reasoning 的concept
我必須說AI HW相關廠商個股近期會被嚴重打折
華爾街是很現實的,短期內一定被認定供過於求
至少要等到下階段Agent有顯著實用性才會拉回
美國AI公司應該被嚇到,中國人cost down到極致又免費開源,雲端廠商應該會減緩硬體採購,但其他大模型發展的公司會double down下去,因為成本降低表示應用會更快成型
要知道,這設計已經公開,大家都可以照做,所以應用端會更快有進展,而且是Transformer 架構的優化,各種應用都會吃到將本增效的成果
長遠來說,中美競爭的槍聲響起
模型還是會一直長大
要跑完整版R1至少還是要10張H100
且R1的論文有說,大模型做RL再Distill
比小模型做RL有效的多,所以要突破智力上限,模型還是會越擴越大,但更大的模型應該就有更多降本增效的設計機會
※ 引述 《LaLFGF》 之銘言:
: 標題: Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子
: 時間: Tue Jan 28 01:08:51 2025
:
:
: 想太多了
: deepseek是一個成本大降幅下降的gpt
: 現在好像氣勢很旺 似乎帶給gpt極大的威脅 也讓nvda、tsm一起下去
: 但這只是投資者、投機者的視角 跟 驚恐過度反應
:
: deepseek除了成本下降 性能也跟著閹割
: 回頭看一下還沒被閹割的現況gpt
: 日常有在中、重度以上gpt的人都不難知道
: 它的回覆有時候都可以讓user氣到想吐血了
: 完整版的都尚且如此了 更何況是閹割版的東西
:
: user包容gpt的百般錯誤 是因為在90%時機可以帶來便利 只得容忍10%腦殘
: 但當使用閹割版導致錯誤腦殘變成20%機率出現時
: 那還真的是 與其省那預算 不如乾脆不用
:
: 自動化與AI的應用 絕對是以正確性為唯一出路
: 閹割版只有死路一條
:
:
:
: ※ 引述《steven961302 (阿哲)》之銘言:
: : 從DeepSeek騰空出世,在到今天Nvidia (以下簡稱NV) 等一票AI概念股的下殺,這輪的: 科技
: : 股估值修正才正剛開始,誰能引爆華爾街炒作了整整一年的AI神話泡泡?或許DeepSeek: 就會
: : 是刺破本輪AI泡沫的那根釘子。
: : 記得2021 Nvidia顯卡被炒作的神話嗎?那時候以太幣漲到一顆4500,NV的RTX3060顯卡: 從24
: : 99美元被炒作到6000美元以上,後來的故事大家都知道了,隨著2022那輪幣圈的泡沫暴: 跌跟
: : 以太幣改為質押共識制,挖礦無利可圖,NV的顯卡在市場上直接暴跌,那些礦場大量的: 顯卡
: : 甚至有打一折賣出的,NV的市值也從巔峰的340跌到100,將近70%的跌幅,然而2023年: 的這
: : 波AI浪潮又讓算力的需求增加,NVDA無疑是這波賣鏟子中風口上最大的贏家,憑藉著市: 場獨
: : 有的高階算力,股價整整翻了10倍。
: : NV之所以享有那麼高的估值,那就是AI浪潮暴發以來,美國這些科技巨頭走的就是依靠: 硬體
: : 算力來提升AI的路線,而NV恰好壟斷了所以的高階算力硬體,所有的AI公司必須找NV購: 買硬
: : 體,囤GPU,這就導致了NV的股價飆升,美國目前正利用政策等壟斷高階算力硬體的方: 式來
: : 實現稱霸AI產業的目標,我們可以看到在這過程中,中國無疑是被排斥在外的,從2021: 以來
: : 的各種的禁令也無疑是針對中國的。
: : 但Deepseek的出現,如果能證明「以優化算法搭配中低端硬體+少量高端硬體」的路線: 是可
: : 行的,那麼美國自身的AI公司及其投資者,是不是會停止花那麼多錢來堆積高端算力硬: 體?
: : 這是否跟當年囤顯卡挖礦的場景有同樣的既視感?
: : 假如NVDA市值的支撐是建立在高端算力硬體的壟斷上,那Deepseek 的影響就是巨大的: ,代
: : 表市場根本不需要那麼多高端算力的GPU,這是徹底的Overbooking,包含其關聯的的供: 應鏈
: : 公司都要遭到市場的本益比重新估值了。
: : NVDA -14%
: : TSM -13%
: : AMD -6%
: : AVGO -15%
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.195.44.27 (臺灣)
: ※ 文章網址: https://www.ptt.cc/Stock/E.bD_S5aZ4EP-U
: 推 joggingwang : 重點是老美一直要封鎖老共,但老共一家幻方還是囤了 01/28 01:11: → joggingwang : 5萬片NV晶片,不就打臉老美過去2年的政策失敗 01/28 01:11: → chasegirl : 急了 01/28 01:11: → qazsd : 聯想到一隻常當機出錯的手機或App,你會想用嗎 01/28 01:11: → dferww55 : 而且還超級卡 01/28 01:11: 推 ragochen : NFLXdeepseek的性能閹割到比肩o1? 01/28 01:11: 推 soome : 這只是剛開始,不知道後面中國會卷出什麼東西 01/28 01:12: 推 joggingwang : 一家幻方可以透過轉手買這麼多片,NV跟GG最好都不 01/28 01:12: → joggingwang : 知,為了錢,商人無祖國,接下來就看川哥會不會對這 01/28 01:12: → joggingwang : 2家下更重的禁令 01/28 01:12: 推 CaTkinGG : 沒關係 開源後全世界會幫它弄得更好 01/28 01:13: 噓 KISS1979 : 中吹者又在幻想了 台灣數位部還沒出手咧 01/28 01:14: 推 Lebrono : 不就一堆重課大佬買了一堆頂裝 結果發現只比一個平 01/28 01:16: → Lebrono : 民微課強一點點的崩潰感 01/28 01:16: → shomingchang: 重點就不是deepseek好不好用 是可能可以用更少資源 01/28 01:17: 推 yoshian886 : 蒸餾出來的東西也達不到AGI,還是參數再多其實也達 01/28 01:18: → yoshian886 : 不到呢? 01/28 01:18: 噓 speedman : 還在閹割版 01/28 01:18: → zer0319 : 開源了你可以自己練啊 01/28 01:19: 噓 s1612316 : 那是你個人的感受 所有人都要最強最完整的版本? 01/28 01:19: 推 ksjr : 下禁令的話又要跌了 01/28 01:19: → sa87a16 : 到現在還搞不清楚狀況 01/28 01:20: 推 ImHoluCan : 短空長多,美股不能看空 01/28 01:20: → s1612316 : 卡頓手機整個印度幾億支 你說呢? 01/28 01:20: 推 bior1234 : 就是閹割版啊,MoE模型就是將模型能力線索到特定領 01/28 01:20: → bior1234 : 域,追求在特定領域達到跟你接近的效能,跳脫專家 01/28 01:20: → bior1234 : 領域就打回原形了 01/28 01:20: → sa87a16 : 用最小成本能獨立訓練出來而且有一定成果你不用? 01/28 01:21: → sa87a16 : 那你肯定NV買到150的天才 01/28 01:21: 推 prestigejoM : https://i.imgur.com/eb9BUsn.jpeg 01/28 01:21
--
泡沫的是硬體廠不是AI本身
短空長多,不是真泡沫,大模型的優勢還在,重點是
更高效的大模型,可以把尺度推得更大
半導體業大概要跌一陣子了
正解
推這篇
只能說應用大戰的時代加速來臨
推
當初開源的時侯就應該想得到會有更強大的的對手出
現了吧 對於熱愛技術的人來說ds的出現應該是讓他們
興奮而不是煩惱?
同樣的DS也是開源應該也是基於此理由 應該吧
他們追求的是全世界的人才一起發展AI而不是商業壁
壘
現在是有投資的在煩惱…
對於技術宅和科研宅來說 DS 的出現本來就讓他們更
興奮,去 Reddit 看英文討論就知道什麼是專業 --
反而 PTT 最熱門的反應是:DS 純粹是吹牛、DS 偷
接 OpenAI API、DS 不能問 8964 所以是垃圾、DS 是
中國做的我才不想碰,... 相比之下真的笑死人
加速ai costdown怎麼看都是利多 跌只是反應已經投
注多餘成本在model的公司上 既然開源 到時候大家還
是看誰算力多 買鏟子的不會輸
短空長多?
中肯
感謝DS,讓我有機會買到便宜的NV和TSM。拜託,再多
殺點,最好能腰斬,我一定買爆
推!終於有技術討論文了。台灣完全壓台積電的缺點浮
現出來。竹科很快就要大裁員了。
78
首Po從DeepSeek騰空出世,在到今天Nvidia (以下簡稱NV) 等一票AI概念股的下殺,這輪的科技 股估值修正才正剛開始,誰能引爆華爾街炒作了整整一年的AI神話泡泡?或許DeepSeek就會 是刺破本輪AI泡沫的那根釘子。 記得2021 Nvidia顯卡被炒作的神話嗎?那時候以太幣漲到一顆4500,NV的RTX3060顯卡從24 99美元被炒作到6000美元以上,後來的故事大家都知道了,隨著2022那輪幣圈的泡沫暴跌跟11
想太多了 deepseek是一個成本大降幅下降的gpt 現在好像氣勢很旺 似乎帶給gpt極大的威脅 也讓nvda、tsm一起下去 但這只是投資者、投機者的視角 跟 驚恐過度反應 deepseek除了成本下降 性能也跟著閹割5
你各位別緊張好不好 等過幾年 咱們中國 上海微電子 把EUV光刻機 造出來 看看最近哈工大 在EUV研發的不斷突破 中國造出EUV光刻機 時間的問題 所以 ASML 現在才這麼害怕1
或許這波賣鏟子的會很慘 但對挖礦的來說是超級大利多吧 畢竟挖礦的成本大幅下降 可以讓AI應用大幅前進 所以說什麼AI泡沫真的太早了7
代 : 表市場根本不需要那麼多高端算力的GPU,這是徹底的Overbooking,包含其關聯的的供應 鏈 : 公司都要遭到市場的本益比重新估值了。 : NVDA -14%14
丸辣 我請問大家AI供應鏈這次是不是真的麻煩大了 原本賣鏟子的都跟你說要用鑽石鏟 最差也要用金鏟子 結果中國那邊不講武德24
唉,這你就錯了 想當年美蘇冷戰時,得知蘇聯發射第一艘載人火箭升空時,美國的反應是什麼? 甘迺迪 ‘’我們要登入月球‘ 可想而知,如今中國橫空出世一個能媲美美帝的AI,一定會讓整個美國震撼 那川普的反應是強硬回擊還是沮喪投降?X
越 : 中美AI大戰,如同美蘇星際大戰2.0 : 且無論那方瘋狂發展,均對台灣有利 : 因為台灣本就非以AI軟體為主,而是硬體,美國AI中國AI,都要用台灣半導體去實現 : 台股要發達啦!發達啦各位,哈哈哈啊哈,哇哈哈哈哈啊哈哈哈32
會不會戳破泡沫有個簡單觀察方式 去八卦版看一下相關推文 基本上啦八卦版在瘋狂吹捧或嘲諷的時候就是高點或低點了 我是覺得那邊現在吹DS吹很大 所以判斷本次NVDA、AVGO、TSM不過是回檔
爆
[心得] DeepSeek對AI產業鏈影響懶人包最這幾天股板跟 X 上的AI金融圈吵的火爆 DeepSeek 對全球 AI 技術發展影響 吵的火爆示意圖 金融人士擔憂影響爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片爆
[情報] AMD 興奮宣布 Instinct MI300X GPUs 支援 DeepSeek-V3標題: AMD Instinct GPUs Power DeepSeek-V3: Revolutionizing AI Development with SGLang 來源: AMD's X (Twitter) 網址:67
Re: [新聞] DeepSeek R1來了,追平o1!它現在不但比OpenAI開放,也應該不用那麼久 重點是DS是開源的 現在應該有許多數據中心已經開始實驗DS的演算法 我們先假設DS的創新 是往AGI道路上的王道57
[情報] Perplexity CEO:實驗性整合DeepSeek R1模標題: Perplexity CEO:實驗性整合DeepSeek R1模型 來源: Perplexity CEO Aravind Srinivas 網址:30
[情報] 馮驥:DeepSeek是國運級的科技成果大推DeepSeek 「黑悟空」製作人:國運級別的科技成果 中國大陸AI新創公司DeepSeek發表的DeepSeek-V3及DeepSeek-R1兩款大模型近期受到大量關 注,連《黑神話:悟空》的製作人馮驥也發文大力推薦,甚至稱DeepSeek可能是「國運級別 的科技成果」。6
Re: [問卦] DeepSeek問世會讓顯卡降價嗎顯卡一定會漲價 目前己經有很多deepseek布署在本機電腦的教學 ollama上也有deepseek R1模型可以下載 deepseek R1模型各參數量對顯卡記憶體需求4
[問卦]DeepSeek是不是台積電的救世主?[問卦] DeepSeek是不是台積電的救世主? 最近看到DeepSeek在那邊吹什麼MLA架構、MoE模型,說什麼訓練效率超高、推理速度超快 ,笑死,還不是靠台積電的5nm、3nm製程在撐?沒了GG的晶片,你這些所謂的「創新」還 能跑得動? DeepSeek這種吃硬體怪獸,光是訓練一個模型就要幾萬顆A100、H100,這些GPU還不都是- 中共國發表Deepseek R1 效能比肩ChatGPT o1 重點是完全開源 而且訓練只用兩個月,花了一億多台幣 這代表台灣只要拿這個來重新訓練一下
1
Re: [問卦] deepseek會刺破ai泡沫嗎?不會 其實在美國 大家還巴不得有這種突破出現 2024年的AI還是在同一個transformer架構下堆料 拿更多東西訓練 真實世界沒有的拿合成的資料練 如果有一個更有效率的架構/模型 假設你拿五千張H100就能做出Deepseek R1 那些有十萬張的公司就能搞出更屌的東西
56
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據65
Re: [情報] Perplexity CEO:實驗性整合DeepSeek R1模32
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據22
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據2X
[請益] AI需求證明台積電當年押錯寶的話?9
Re: [新聞] 快訊/蛇年南鯤鯓國運籤出爐:下下籤「經59
[心得] 探討無腦硬體堆算力 是不是到盡頭了6
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援2
Re: [請益] 為什麼中國越來越強?1X
Re: [請益] 為什麼中國越來越強?2
[創作] 技術分析 by deepseek7
Re: [新聞] 阿里巴巴發布AI模型,聲稱超越DeepSeekV3X
Re: [請益] 為什麼中國越來越強?15
Re: [請益] 為什麼中國越來越強?18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援