PTT推薦

Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高

看板Stock標題Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高作者
LDPC
(Channel Coding)
時間推噓29 推:31 噓:2 →:51

目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本

最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o
情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有
多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型
這傢伙精髓站就是在gpt-4模型巨人的肩膀上

資料的quality會影響大模型 而資料可以透過開源高質量模型去萃取
如果再套用COT 這些都可以繼續進化 paper有些細節像是數據集這類如何精煉
反而可能會是一個重要一環 但大家都會藏這類細節 @@/

2025現在大家都殺到LLM Agent去了 LLM刷模型任務分數熱潮有點下降
大部分都跑去搞LLM決策部分 和COT (思考鏈) 多步驟分析任務
像是waymo自駕端對端的決策都搞了一個EMMA 用Gemini 去往上蓋
(這時候自駕公司有自己的很強的LLM就很有用了 隨手不負責預測亞麻zoox會拿自家
LLM或anthropic來搞end-2-end多模態)

然後LLM Agent如果要放在機器人和自駕
一定得on-device 因為雲端延遲太慢 風險高 所以1B~4B這陣子的on-device模型
能力也在不斷突破 所以on-device LLM不太會在是AI-PC 除非是屬於私密資料等應用場景而edge/on-devcie AI 可能突破點會在機器人

自駕的趨勢之後會跟LLM走上同陣線 在某個時間點 等閉源LLM開始時 就是差不多AI模型的盡頭開始產業化 也許端對端LLM決策 可以強化視覺上標籤數據不足 (不確定這點
但直覺上認為 思考練LLM Agent可以降低場景車用數據量..QQ 基於模型泛化能力)
這會給其他車廠追上特斯拉的機會 特斯拉自身的LLM可來自grok 而3D基礎模型
foundation model 像是李飛飛的空間模型 有一定機會能幫助自駕 可以直接融合LLM
產生端對端多模態 而李飛飛又跟狗家走很近 所以想單賭個股 可以賭賭看狗家


--
順帶一提 LLM Agent在寫code部分越來越噁心了 強烈建議不要去當碼農..QQ
機器人題材就是跟LLM Agent有關 只要注意誰能做LLM Agent軟硬體部分就好

狗家的現在佈局就是拿Gemini去瘋狂蓋各種下游任務: 自駕 AR眼鏡 搜尋 多模態
語音 翻譯 Youtube 廣告 消費 地圖 商家產品 這些多樣性因為自家公司的資料特殊性
現在有點佔上風

股點就是買Big 7 + 台積 @@/


※ 引述《iaminnocent (人生無常)》之銘言:
: 剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家
: 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1: ChatGPT-O1:
: https://i.imgur.com/T2jN9hZ.jpeg

圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: Deepseek-R1:
: https://i.imgur.com/IitIbR0.jpeg
圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: 我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是
: 不知道在說甚麼
: ChatGPT 在最後有點出散文標題,內容也比較有切合標題
: 這應該可以當作兩者的能力小比拼吧?
: --------
: 補:
: 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好
: https://i.imgur.com/7DN4Dz9.jpeg
圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: 這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)
: ※ 文章網址: https://www.ptt.cc/Stock/E.2dRqiuRaRdas
: 推 s213092921 : 重點是Deepseek背後的成本只有ChatGPT的20分之1 01/26 10:34: → iaminnocent : 確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣 01/26 10:41: → iaminnocent : 布O3-mini將免費了 01/26 10:41: → TaiwanUp : 如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感 01/26 10:44: 推 breathair : 只代表對於演算法大科技也要花大錢挖人 01/26 10:45: → breathair : 來搞了,算力的投資不會減少,不然等你 01/26 10:45: → breathair : 演算法追上,算力又落後了怎辦? 01/26 10:45: 推 strlen : r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑 01/26 10:55: → TaiwanUp : O1比較像沒有人生經驗學生寫 可以再tune一段小故事 01/26 10:55: → strlen : 但deepseek重點在它開源 還公開論文 好耶 作功德 誰 01/26 10:55: → strlen : 不愛?載回來用免錢 改免錢的 中國人要作功德當然好 01/26 10:56: → TaiwanUp : R1就每段都小故事 恐怕就是直接從劇本拼湊出來的 01/26 10:56: 推 mamorui : pretrain的成本占總成本7-9成,R1是只管posttrain 01/26 10:58: → mamorui : ,R1高成本會嚇死人。 01/26 10:58: 推 mamorui : 然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也 01/26 11:03: → mamorui : 會錯的跟其他一模一樣, 如果pretrain全部自己的資 01/26 11:03: → mamorui : 料怎麼會錯 01/26 11:03: 推 s213092921 : http://i.imgur.com/NWWWmUD.jpg 01/26 11:04
圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: 推 mamorui : 簡單說,成本漂亮那就不要有那麼多別的模型的影子 01/26 11:07: → mamorui : 。 01/26 11:07: → iaminnocent : 其實樓上有點出問題,pretrain的預標數據集才是最 01/26 11:08: → iaminnocent : 貴的,這些可能都是美國公司花大錢去做的 01/26 11:08: → iaminnocent : pretrain資料集需要人工介入標記,這個東西貴鬆鬆 01/26 11:08: 推 mamorui : 我沒有說不能吹能力,但成本就誇張了,我想看的是D 01/26 11:11: → mamorui : eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這 01/26 11:11: → mamorui : 麼多成本。 01/26 11:11: 推 mamorui : 我沒看那麼多文章,如果有人找到paper解釋DeepSeek 01/26 11:16: → mamorui : v3為什麼strawberry的r幾個錯的跟其他模型一模一 01/26 11:16: → mamorui : 樣是理所當然,而且預訓練是很純的資料(這家公司 01/26 11:16: → mamorui : 自己收集的資料、沒有借助其他LLM產生好資料 =》 01/26 11:16: → mamorui : 準備好資料是預訓練之常識) 01/26 11:16: 推 y800122155 : 從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊 01/26 11:16: → y800122155 : 在前人的成果? 現在DS發表用RL訓練不就只是換一種疊 01/26 11:16: → y800122155 : 法? 自己要發布論文發布技術本來就是願意給別人用讓 01/26 11:16: → y800122155 : 產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢 01/26 11:16: → y800122155 : 不公平有啥意義? 01/26 11:16: → mamorui : 做到上述兩項,那我就真的給這家鼓掌 01/26 11:16: 推 woker : 中國出產品走向是中低成本市場。沒有一定要當頂尖 01/26 11:17: → woker : 但cp值可能不錯 01/26 11:17: → icexice : deepseek的回答真的好王家衛XD 01/26 11:17: → TaiwanUp : V3的排名還是差4o(11月版)較遠 跟4o(五月版)較近 01/26 11:19: 推 mamorui : 沒說他們沒花錢,重點前人pretrain花多少,嘲笑前 01/26 11:19: → mamorui : 人砸大錢,DeepSeek應該pretrain的資料總該是全部 01/26 11:19: → mamorui : 都自己的、沒有用其他LLM生成的,有人要背書嗎? 01/26 11:19: → TaiwanUp : 中低成本4o再開放一點權限給免費版就有了 01/26 11:20: → mamorui : 有人要幫DeepSeek背書pretrain的資料準備嗎 01/26 11:20: 推 y800122155 : 所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就 01/26 11:24: → y800122155 : 是如果別人能重現 DS R1,在算力巨大差異下可以直接 01/26 11:24: → y800122155 : 加碼做到 R10、R100、R1000,到時DS花的500萬也是一 01/26 11:24: → y800122155 : 樣丟到水裡 01/26 11:24: 推 mamorui : 我們看的是總成本,只要找到證明背書pretrain,雖 01/26 11:24: → mamorui : 然正確率差一點,這成本就真的是今年最神的,很簡 01/26 11:24: → mamorui : 單。 01/26 11:24: → strlen : https://tinyurl.com/3dfs2j8k 楊立昆都說話了 這就 01/26 11:24: → strlen : 站在前人肩膀上發展 但也開源沒有藏 所以很棒 稱讚 01/26 11:25: → strlen : 成本怎麼樣無所謂啦 他都要作功德了 一塊成本都是賺 01/26 11:25: → strlen : 阿祖就是號召大家AI都來作功德 變成今天這樣很合理 01/26 11:26: 推 mamorui : 是啊 我對於佛心沒意見 XD 01/26 11:26: → TaiwanUp : DS的預訓練要用上微信用戶聊天訊息 可能會比較霸氣 01/26 11:26: → strlen : 誰不曉得中國最厲害的就是魔改別人的東西? 01/26 11:26: → strlen : 但deepseek算有良心了公開魔改方法 過去一堆垃圾 偷 01/26 11:27: → mamorui : 學術界是齊心討論,可沒酸前人 01/26 11:27: → strlen : 人家的 營利就算了 還反告別人 嘻嘻 01/26 11:27: → mamorui : 我都直接拿strawberry看是不是資料同源 XDDD 01/26 11:28: → strlen : 老實講 你有GPU有伺服 抓r1下來自己調一調開API 它 01/26 11:28: → strlen : 也不能拿你怎樣 這樣還不好? 01/26 11:28: → jatj : 好啦 1/20 1/20 阿就比較爛啊 阿就買不到算力啊 01/26 11:29: 推 mamorui : API就可以串接了 繼續拿資料才是目的 01/26 11:29: 推 mamorui : 開源的原因很好懂 我之前整合資料庫 免費的最popul 01/26 11:31: → mamorui : ar的Postgres會支援 其他免費的就再說 01/26 11:31: → mamorui : 所以知道為什麼要開源碼 市占是真的很重要 01/26 11:32: → mamorui : 因為公司可以決定支援的順序 01/26 11:32: 推 wangm4a1 : 站在巨人肩膀上 科技正常現象 01/26 11:33: 推 Enzofulgura : 看完覺得Deepseek比較懂得王家衛XD 01/26 11:39: → iaminnocent : 但是文章內容跟標題完全沒關系XDD 01/26 11:42: → s860703 : 講這麼多 美股續漲 01/26 11:49: 推 tradeent : DeepSeek寫得比較好 01/26 11:50: → tradeent : http://i.imgur.com/c9C1WzU.jpg 01/26 11:50
圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: 推 Liberl : 股癌的台股美股電報群已經有很多大神分析過了 01/26 11:53: → Liberl : 去那邊看就好了 01/26 11:54: → Liberl : 或是Miula的臉書也有討論 01/26 11:54: 推 toulio81 : 中國公司很多的低成本都是假象,要不就是用品質實 01/26 11:54: → toulio81 : 際上無法穩定達標的產品充數,要不就是政府補貼導 01/26 11:54: → toulio81 : 致的低成本,歐美無法學後者,而前者更是一條死路 01/26 11:54: 推 tradeent : 請問樓上怎麼加電報群 01/26 11:55: → iaminnocent : tradent大,因為我是限定用O1跟R1這兩個來進行,如 01/26 11:56: → iaminnocent : 果用4O跟V3,也會有不一樣結果,這蠻特別的,我也 01/26 11:56: → iaminnocent : 覺得4O寫的比O1好 01/26 11:56: → iaminnocent : 以下是4O寫的,我反而覺得寫得比O1還好 01/26 11:59: → iaminnocent : https://i.imgur.com/7DN4Dz9.jpeg 01/26 11:59
圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
: → iaminnocent : 最後那句「真好,人生何處不相逢」有震驚到我,這 01/26 11:59: → iaminnocent : 個還是在O1之前我先用4O寫的 01/26 11:59: → iaminnocent : 但因為我想說要比較兩個最強的,就以O1比R1,但是 01/26 12:00: → iaminnocent : 我覺得寫散文反而4O好於O1 01/26 12:00: 推 mamorui : o1是推理型,以r1為例,我問r1不清楚的先問v3、再 01/26 12:01: → mamorui : 啟動r1,r1就突然知道了 01/26 12:01: ※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48
: → iaminnocent : 得到結論,王家衛的文字用理論是不行的XD要用感情 01/26 12:04: 推 mamorui : 如果是AGI,就不會有能力差異,表現如何是穩定的, 01/26 12:05: → mamorui : 雖然還沒有AGI。 現在看到LLM會出並存的系列,就當 01/26 12:05: → mamorui : 做遊戲角色各種族差異,要想好先用誰再用誰,AI的 01/26 12:05: → mamorui : 思考跟記憶是仿人腦(非電腦),所以可以交錯問。 01/26 12:05: 推 mamorui : 像r1就是一定要推理,關掉才能切到V3 01/26 12:06

--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
PTT 網址

sdbb 01/26 13:2199nvdl

sdbb 01/26 13:23Btw,GooG tsm,which better?

sdbb 01/26 13:24GG VS. 積積

感覺都可以賭啊 狗家可以問TQQQ王 TSM還得看川普的心情吧@@?

※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 13:36:02

jack1218 01/26 13:35請問現在有甚麼好用的寫code用的LLM agent呀

https://reurl.cc/Q5gdNO

banque 01/26 13:38現在Big 7中幾個增加一堆資本支出建數據中心

banque 01/26 13:38還沒找到具體的應用回收成本的方法

banque 01/26 13:38就面臨超便宜還開源的模型競爭

banque 01/26 13:38這消息很難解讀成繼續投資Big 7的利好吧

QQ BIG5會用裁員降數據中心成本(扣掉老黃果家) 所以帳面上還是很好看 據說接下來一個月內 麻家軟家會開始砍人 阿祖是用intense of year 來捲走人力

Altair 01/26 13:391128寫程式不再是金飯碗 美國軟體工程師職缺5年腰斬

allen0519 01/26 13:44這篇講的最專業 給推!! 同樣的問題問chatgpt跟gemin

allen0519 01/26 13:44i雖然答案整體差異不大 但格式跟思路並不同 問deeps

allen0519 01/26 13:44eek有種熟悉感 特別像chatgpt 或許真的被拿來當教練

junior02048601/26 13:46FANNG+,TSM無腦多

tsukirit 01/26 13:47Big7個屁,誰要買垃圾貧果

lpmybig 01/26 13:49Fanng gogogo

Roger5566 01/26 13:49既然AIPC沒有市場 蘋果前途黯淡可以空了

GinginDenSha01/26 13:57推 專業

※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 14:12:37

create8 01/26 14:12碼農失業潮,幹

kanx 01/26 14:14也要記得買HBM, 現代美光 三星?

CorkiN 01/26 14:23個人的看法 雖然消費者端是一部份目標但現階段對巨

CorkiN 01/26 14:23頭們來說AI是因為能增加”生產力/人”才瘋狂投資

CorkiN 01/26 14:23投入AI基建生產力++人力需求—

CorkiN 01/26 14:23巨頭並沒有沒回收成本 是已經在回收成本

CorkiN 01/26 14:25巨頭內部已經在用AI降低自己的生產成本

littenVenus 01/26 14:27tsm只要來個大地震就崩惹=.=

CorkiN 01/26 14:27這兩三年巨頭們裁員的消息不斷 但營收還是持續向上

CorkiN 01/26 14:27 那不就也證明投入AI基建生產力已經在增加了嗎

littenVenus 01/26 14:28窩長官們前幾天還說今年只要壓雞雞就能躺著賺 什麼

littenVenus 01/26 14:28都不用做

CorkiN 01/26 14:28倒是NV這幾年都在擴張台灣辦公室一直招人 真的猛

littenVenus 01/26 14:28ps 他們是反指標喔

CorkiN 01/26 14:29軟體開發的開源生態剛好給了AI大量的資料訓練 讓碼

CorkiN 01/26 14:29農AI能進步快速解答

CorkiN 01/26 14:30*多打了解答兩個字

ck326 01/26 14:31營收往上是因為各種漲價好嗎zzzz

mamorui 01/26 14:33QQ 沒錯 LDPC大最可靠了

Eliad 01/26 14:43meta和巨頭其實冗員很多,mets快4萬人年薪超過1200

Eliad 01/26 14:43萬,裁個2萬人,一年就省快3000億

Eliad 01/26 14:44應該用力裁

pp520 01/26 15:06看來看去,這篇最專業 !!

Chilloutt 01/26 15:15廢狗快噴

strlen 01/26 15:25才兩年 就可以拿設計圖直接產code 再兩年 我看整個

strlen 01/26 15:25系統講幾句話就直接生出來 設計順便也整合 還可以讓

strlen 01/26 15:26你選風格...碼農末日不遠矣.......

ejnfu 01/26 15:47資深碼農實際coding時間可能沒有30%

ejnfu 01/26 15:48不用這麼緊張

noahlin 01/26 15:56Google理論上資料最多 但基本的翻譯現在還是明顯比G

noahlin 01/26 15:56PT差,機翻的感覺還是很明顯

noahlin 01/26 15:57AAPL營收已經漲不動了 eps卡在6上下三年了

noahlin 01/26 15:58碼農一定還是需要 但門檻越來越高 缺越來越少 厲害

noahlin 01/26 15:58的一個可以抵十個用不誇張

clecer 01/26 16:00Apple ai整個落隊還看不到起色,只能吃老本了

keter007 01/26 16:06https://i.imgur.com/vA7ifFR.jpeg

圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高

keter007 01/26 16:07https://i.imgur.com/RFSG3MK.jpeg

圖 Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高

aspirev3 01/26 16:22QQQ 七巨頭比重高和有機會包到AI新創IPO 有料嗎

TaiwanUp 01/26 16:46Apple要做到軟智硬整合 就看怎麼取捨了

JasonX5566 01/26 16:52質量

jim543000 01/26 17:27很明顯你是馬農等級 也非半導體專業

fernmmm 01/26 17:34比較好奇為什麼Google 要特別叫狗家是有什麼原因嗎

fernmmm 01/26 17:34

sdbb 01/26 17:41GG狗家都是obov 的創意

qxpbyd 01/26 17:46翻譯看領域吧 瑟瑟翻譯 Gemini exp跟GPT4o不相上下

qxpbyd 01/26 17:47前提是你要用CoT prompt

Fuji 01/26 18:04內容很專業!結論很粗爆!推

loveadu 01/26 18:0699 ASIC

ookimoo 01/26 18:09算法會演進 但是無法帶動整個景氣循環 只能說到這

ookimoo 01/26 18:09更無法改變供需之間的關係

Jeff1989 01/26 18:10人人都是碼農的概念

ice1015 01/26 18:16因為估狗

mamorui 01/26 18:21我現在最大疑問是DeepSeek卻無法整合V3跟Search,

mamorui 01/26 18:21真的超奇怪的,理論上Search的資料跟GPT無關,他們

mamorui 01/26 18:21可以輕鬆突破才對。

y800122155 01/26 18:25阿婆=Apple 這個更有創意更好笑

mamorui 01/26 18:26DS既然找到後訓練突破,沒能力整合Search進V3?

mamorui 01/26 18:26https://imgur.com/mXir9XT

mamorui 01/26 18:27AGI的路終究要整合,DeepSeek下一步該推出整合了才

mamorui 01/26 18:27

TaiwanUp 01/26 19:01本地端開源搜尋引擎: Meilisearch, Woosh

spirit119 01/26 19:05這個解釋很好懂

TaiwanUp 01/26 19:05Typesense, Elasticsearch 可以整合看看

jerrychuang 01/26 19:0799MU

william85 01/26 22:27

gogogogo333301/27 10:27現在寫和 review 團隊的code變的相當輕鬆

gogogogo333301/27 10:27省下的時間 能做不少其他的事情