Re: [新聞] Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高

iaminnocent 發表於 2025/1/26 上午10:24:00

看板Stock標題Re: [新聞] Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高作者

(人生無常)時間Jan 26 10:24:00 2025推噓55 推:55 噓:0 →:128

剛剛看FB，發現有個中國的作家對於Deepseek的作文水平感到驚訝，用了相同問題，以王家衛的電影風格去撰寫標題為人生何處不相逢的散文，來分別問CHATGPT-O1跟Deepseek-R1ChatGPT-O1:
https://i.imgur.com/T2jN9hZ.jpeg

Deepseek-R1:
https://i.imgur.com/IitIbR0.jpeg

我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺，通篇王家衛感，但是不知道在說甚麼
ChatGPT 在最後有點出散文標題，內容也比較有切合標題

這應該可以當作兩者的能力小比拼吧？
--------
補：
我也有用4O用相同問題問過，我覺得寫得比O1跟R1還好
https://i.imgur.com/7DN4Dz9.jpeg

這滿神奇的，O1應該是ChatGPT 最強的模型，但是寫散文我覺得沒有4O寫得好

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)

※ 文章網址:

https://www.ptt.cc/Stock/E.2dRqiuRaRdas

推

s213092921 01/26 10:34重點是Deepseek背後的成本只有ChatGPT的20分之1

→

iaminnocent 01/26 10:41確實，訓練成本這件事情蠻令人訝異的，OpenAi也宣

→

iaminnocent 01/26 10:41布O3-mini將免費了

→

TaiwanUp 01/26 10:44如果不知道是台詞 R1有故事感但無邏輯結尾有蛇年感

推

breathair 01/26 10:45只代表對於演算法大科技也要花大錢挖人

→

breathair 01/26 10:45來搞了，算力的投資不會減少，不然等你

→

breathair 01/26 10:45演算法追上，算力又落後了怎辦？

推

strlen 01/26 10:55r1實際用遠不如抬面上的啦只有評測嚇人無庸質疑

→

TaiwanUp 01/26 10:55O1比較像沒有人生經驗學生寫可以再tune一段小故事

→

strlen 01/26 10:55但deepseek重點在它開源還公開論文好耶作功德誰

→

strlen 01/26 10:56不愛？載回來用免錢改免錢的中國人要作功德當然好

→

TaiwanUp 01/26 10:56R1就每段都小故事恐怕就是直接從劇本拼湊出來的

推

mamorui 01/26 10:58pretrain的成本占總成本7-9成，R1是只管posttrain

→

mamorui 01/26 10:58，R1高成本會嚇死人。

推

mamorui 01/26 11:03然後是DeepSeek-V3宣稱557萬，但strawberry幾個r也

→

mamorui 01/26 11:03會錯的跟其他一模一樣，如果pretrain全部自己的資

→

mamorui 01/26 11:03料怎麼會錯

推

s213092921 01/26 11:04http://i.imgur.com/NWWWmUD.jpg

推

mamorui 01/26 11:07簡單說，成本漂亮那就不要有那麼多別的模型的影子

→

mamorui 01/26 11:07。

→

iaminnocent 01/26 11:08其實樓上有點出問題，pretrain的預標數據集才是最

→

iaminnocent 01/26 11:08貴的，這些可能都是美國公司花大錢去做的

→

iaminnocent 01/26 11:08pretrain資料集需要人工介入標記，這個東西貴鬆鬆

推

mamorui 01/26 11:11我沒有說不能吹能力，但成本就誇張了，我想看的是D

→

mamorui 01/26 11:11eepSeek從pretrain就是土法煉鋼，那才叫真的沒花這

→

mamorui 01/26 11:11麼多成本。

推

mamorui 01/26 11:16我沒看那麼多文章，如果有人找到paper解釋DeepSeek

→

mamorui 01/26 11:16 v3為什麼strawberry的r幾個錯的跟其他模型一模一

→

mamorui 01/26 11:16樣是理所當然，而且預訓練是很純的資料（這家公司

→

mamorui 01/26 11:16自己收集的資料、沒有借助其他LLM產生好資料 =》

→

mamorui 01/26 11:16準備好資料是預訓練之常識）

推

y800122155 01/26 11:16從Transformer到GPT到ChatGPT等LLM，不都是一直堆疊

→

y800122155 01/26 11:16在前人的成果? 現在DS發表用RL訓練不就只是換一種疊

→

y800122155 01/26 11:16法? 自己要發布論文發布技術本來就是願意給別人用讓

→

y800122155 01/26 11:16產業一起推進，在那邊吵什麼別人在哪個階段沒花到錢

→

y800122155 01/26 11:16不公平有啥意義?

→

mamorui 01/26 11:16做到上述兩項，那我就真的給這家鼓掌

推

woker 01/26 11:17中國出產品走向是中低成本市場。沒有一定要當頂尖

→

woker 01/26 11:17但cp值可能不錯

→

icexice 01/26 11:17deepseek的回答真的好王家衛XD

→

TaiwanUp 01/26 11:19V3的排名還是差4o(11月版)較遠跟4o(五月版)較近

推

mamorui 01/26 11:19沒說他們沒花錢，重點前人pretrain花多少，嘲笑前

→

mamorui 01/26 11:19人砸大錢，DeepSeek應該pretrain的資料總該是全部

→

mamorui 01/26 11:19都自己的、沒有用其他LLM生成的，有人要背書嗎？

→

TaiwanUp 01/26 11:20中低成本4o再開放一點權限給免費版就有了

→

mamorui 01/26 11:20有人要幫DeepSeek背書pretrain的資料準備嗎

推

y800122155 01/26 11:24所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就

→

y800122155 01/26 11:24是如果別人能重現 DS R1，在算力巨大差異下可以直接

→

y800122155 01/26 11:24加碼做到 R10、R100、R1000，到時DS花的500萬也是一

→

y800122155 01/26 11:24樣丟到水裡

推

mamorui 01/26 11:24我們看的是總成本，只要找到證明背書pretrain，雖

→

mamorui 01/26 11:24然正確率差一點，這成本就真的是今年最神的，很簡

→

mamorui 01/26 11:24單。

→

strlen 01/26 11:24https://tinyurl.com/3dfs2j8k 楊立昆都說話了這就

→

strlen 01/26 11:25站在前人肩膀上發展但也開源沒有藏所以很棒稱讚

→

strlen 01/26 11:25成本怎麼樣無所謂啦他都要作功德了一塊成本都是賺

→

strlen 01/26 11:26阿祖就是號召大家AI都來作功德變成今天這樣很合理

推

mamorui 01/26 11:26是啊我對於佛心沒意見 XD

→

TaiwanUp 01/26 11:26DS的預訓練要用上微信用戶聊天訊息可能會比較霸氣

→

strlen 01/26 11:26誰不曉得中國最厲害的就是魔改別人的東西？

→

strlen 01/26 11:27但deepseek算有良心了公開魔改方法過去一堆垃圾偷

→

mamorui 01/26 11:27學術界是齊心討論，可沒酸前人

→

strlen 01/26 11:27人家的營利就算了還反告別人嘻嘻

→

mamorui 01/26 11:28我都直接拿strawberry看是不是資料同源 XDDD

→

strlen 01/26 11:28老實講你有GPU有伺服抓r1下來自己調一調開API 它

→

strlen 01/26 11:28也不能拿你怎樣這樣還不好？

→

jatj 01/26 11:29好啦 1/20 1/20 阿就比較爛啊阿就買不到算力啊

推

mamorui 01/26 11:29API就可以串接了繼續拿資料才是目的

推

mamorui 01/26 11:31開源的原因很好懂我之前整合資料庫免費的最popul

→

mamorui 01/26 11:31ar的Postgres會支援其他免費的就再說

→

mamorui 01/26 11:32所以知道為什麼要開源碼市占是真的很重要

→

mamorui 01/26 11:32因為公司可以決定支援的順序

推

wangm4a1 01/26 11:33站在巨人肩膀上科技正常現象

推

Enzofulgura 01/26 11:39看完覺得Deepseek比較懂得王家衛XD

→

iaminnocent 01/26 11:42但是文章內容跟標題完全沒關系XDD

→

s860703 01/26 11:49講這麼多美股續漲

推

tradeent 01/26 11:50DeepSeek寫得比較好

→

tradeent 01/26 11:50http://i.imgur.com/c9C1WzU.jpg

推

Liberl 01/26 11:53股癌的台股美股電報群已經有很多大神分析過了

→

Liberl 01/26 11:54去那邊看就好了

→

Liberl 01/26 11:54或是Miula的臉書也有討論

推

toulio81 01/26 11:54中國公司很多的低成本都是假象，要不就是用品質實

→

toulio81 01/26 11:54際上無法穩定達標的產品充數，要不就是政府補貼導

→

toulio81 01/26 11:54致的低成本，歐美無法學後者，而前者更是一條死路

推

tradeent 01/26 11:55請問樓上怎麼加電報群

→

iaminnocent 01/26 11:56tradent大，因為我是限定用O1跟R1這兩個來進行，如

→

iaminnocent 01/26 11:56果用4O跟V3，也會有不一樣結果，這蠻特別的，我也

→

iaminnocent 01/26 11:56覺得4O寫的比O1好

→

iaminnocent 01/26 11:59以下是4O寫的，我反而覺得寫得比O1還好

→

iaminnocent 01/26 11:59https://i.imgur.com/7DN4Dz9.jpeg

→

iaminnocent 01/26 11:59最後那句「真好，人生何處不相逢」有震驚到我，這

→

iaminnocent 01/26 11:59個還是在O1之前我先用4O寫的

→

iaminnocent 01/26 12:00但因為我想說要比較兩個最強的，就以O1比R1，但是

→

iaminnocent 01/26 12:00我覺得寫散文反而4O好於O1

推

mamorui 01/26 12:01o1是推理型，以r1為例，我問r1不清楚的先問v3、再

→

mamorui 01/26 12:01啟動r1，r1就突然知道了

※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48

→

iaminnocent 01/26 12:04得到結論，王家衛的文字用理論是不行的XD要用感情

推

mamorui 01/26 12:05如果是AGI，就不會有能力差異，表現如何是穩定的，

→

mamorui 01/26 12:05雖然還沒有AGI。現在看到LLM會出並存的系列，就當

→

mamorui 01/26 12:05做遊戲角色各種族差異，要想好先用誰再用誰，AI的

→

mamorui 01/26 12:05思考跟記憶是仿人腦（非電腦），所以可以交錯問。

推

mamorui 01/26 12:06像r1就是一定要推理，關掉才能切到V3

推

maxc55555 01/26 13:04怎麼辦，我只覺得是王家衛寫的好不好的差別，而且

→

maxc55555 01/26 13:04散文本來就很吃共鳴XD

推

ntr203 01/26 13:06之前看過中國豆包跟gpt辯論，再來比一次阿

推

pcjimmy 01/26 13:09寫文章的話，4O的能力好很多

推

PoloHuang 01/26 13:39這邊高手好多

推

SuperBig78 01/26 13:46可以多生成幾篇試試嗎？感覺每次生成的結果應該會有

→

SuperBig78 01/26 13:46程度上的差異，但deep seek成本相對chatGPT系列真的

→

SuperBig78 01/26 13:46滿低的@@

推

s213092921 01/26 13:48https://reurl.cc/qn2dXy

推

tcypost 01/26 14:14這邊對作家最有用的是R1，對學生有用的是4O

→

tcypost 01/26 14:15O1只是通順，沒有特色

推

utn875 01/26 14:17再次證明站在巨人肩膀是最划算策略

推

chaohsiung 01/26 14:18做功德的話 api的token應該要免費才是

推

chaohsiung 01/26 14:20O1 4O 嚴謹程度設定應該不一樣

→

iaminnocent 01/26 14:21對作家最有用的不是R1吧，他就只是把王家衛的台詞

→

iaminnocent 01/26 14:21搬過來，作家這樣寫會被告抄襲吧

推

mrmowmow 01/26 14:34你用九把刀的品味去評鑑4o比較好的嗎？

推

smallph01 01/26 14:44我是比較喜歡01的版本每一句都讓我想多停留幾秒去

→

smallph01 01/26 14:44思考它的意涵意境也讓我又一次驚訝Chatgpt 的能力

→

iaminnocent 01/26 14:504O有呈現回憶細節感，相比起O1來說我覺得較容易閱

→

iaminnocent 01/26 14:50讀阿

→

newwu 01/26 15:46很明顯R1寫得最爛

推

poeoe 01/26 16:29很明顯DeepSeek寫的最有感

推

DarkerDuck 01/26 18:11數學、程式、科學那種需要推理的才會用到o1

推

mamorui 01/26 18:11沒有按Deep think其實是走V3, 按了才是R1（或者R1-

→

mamorui 01/26 18:11preview ? ) ˊ_>ˋ

→

DarkerDuck 01/26 18:12你散文用o1寫反而讓CoT毀了原本流暢的寫作脈絡

→

DarkerDuck 01/26 18:124o才是符合寫作直覺的產生方式

→

DarkerDuck 01/26 18:13OpenAI又不是傻了，o1最強為什麼還要留個4o

→

DarkerDuck 01/26 18:13我自己再問那些篇直覺的問題也是只問4o

→

DarkerDuck 01/26 18:14用o1還占我使用的額度

推

mamorui 01/26 18:14樓上那些詩句看起來沒有走推理系，有的話問題下方

→

mamorui 01/26 18:14會看到跑一堆邏輯推理

→

DarkerDuck 01/26 18:14而且有些問題需要網路最新資料，也只能用4o網路搜尋

推

mamorui 01/26 18:17DeepSeek明顯被gpt資料模板牽著走，連search的那條

→

mamorui 01/26 18:17entry也長一樣

推

mamorui 01/26 18:20DeepSeek卻無法整合V3跟Search，真的超奇怪的，理

→

mamorui 01/26 18:20論上Search的資料跟GPT無關，他們可以輕鬆突破才對

→

mamorui 01/26 18:20。

推

tsubasawolfy01/26 18:20你去看o1出來時跟4o的對比會發現作文那邊沒增強

→

tsubasawolfy01/26 18:20因為o1就是邏輯能力

推

tcypost 01/26 18:24作家用R1改寫後會最有特色，其他沒有改寫空間

→

tcypost 01/26 18:25R1少了很多邏輯上的連接詞，但是這對作家又不難

→

tcypost 01/26 18:27R1引導的是一些無法使用大膽文字的作家做出改變

推

mamorui 01/26 18:53其實這題很怪，我自己測試r1也出現午夜三點十七分

→

mamorui 01/26 18:53，我用o1開頭也不會這樣 XD

推

mamorui 01/26 18:55不換個時間？ https://imgur.com/9M2I5y1

推

dragonjj 01/26 19:28有03了喔

推

ariadne 01/26 19:49有人問Deepseek大躍進給出答案後過兩秒撤回答案

→

ariadne 01/26 19:49改回答這個違法不能問這樣你覺得可以？

→

iaminnocent 01/26 20:10我們使用AI的目的是要測他夠不夠聰明，能否被人類

→

iaminnocent 01/26 20:11接受，這三篇拿去秘密給國文老師修改R1那篇一定第

→

iaminnocent 01/26 20:11一個被打不及格阿，因為根本文不對題

推

guanting886 01/26 23:03你是永遠沒辦法看到GPT模型會有文筆或真的理解你的

→

guanting886 01/26 23:03問題

→

guanting886 01/26 23:04因為從底層他就不是那樣子運作的再怎麼調整都只是

→

guanting886 01/26 23:04學人講話

→

guanting886 01/26 23:06舉例來說：你去跟他詢問某一個字的甲骨文源頭金文

→

guanting886 01/26 23:06發展為什麼要用這個包含裡面字為什麼擺下面他也

→

guanting886 01/26 23:06不會知道但他會想辦法掰給你

→

guanting886 01/26 23:06明明就寫反了他還是一本正經的跟你胡說八道

→

guanting886 01/26 23:07 他不是不差他只能這樣如果要給他一個程度的話

→

guanting886 01/26 23:08他就像Yahoo知識+上的那些「專家」國小、國中生看

→

guanting886 01/26 23:08到就很熱情的幫你Google出答案只求最佳解答而且

→

guanting886 01/26 23:08就算他真的不知道也要湊答案掰給你看

→

guanting886 01/26 23:09但GPT模型有個好處就是你想問很冷門的東西他也能

→

guanting886 01/26 23:09回你一二句

推

guanting886 01/26 23:15以前用OpenAI去生圖就叫他不要再給我裡面的某一個

→

guanting886 01/26 23:15物件了他還是硬要給我

→

guanting886 01/26 23:16為什麼阿就這些東西都從擴散模型生出來的他怎麼會

→

guanting886 01/26 23:16做減法

推

stlinman 01/27 03:02認真說一下繪圖AI是發散->收斂，負向提示詞或二次抹

→

stlinman 01/27 03:03除還是能做減法。但LLM就真的是在算計機率。

→

a9564208 01/27 11:07所以哪個比較像王家衛？

→

iaminnocent 01/27 11:28以問題的內容來說，我希望生成一篇有王家衛風格的

→

iaminnocent 01/27 11:28標題為人生何處不相逢的散文，R1當然最像王家衛風

→

iaminnocent 01/27 11:28格，但是內容狗屁不通阿，就是照搬動王家衛的電影

→

iaminnocent 01/27 11:28台詞，你是希望AI生成屎味的巧克力還是巧克力味的

→

iaminnocent 01/27 11:28屎，這不是很明白嗎？

推

geige 01/27 17:25Deepseek可能是學中文的比較懂亞洲的東西

推

lemondrink 01/28 14:43deepseek版才是王家衛

同系列文章

Re: [新聞] Meta陷入恐慌？內部爆料：在瘋狂分析複製DeepSeek，高

其他人也閱讀了

PTT 熱門相關