Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
OpenAPI 的 Chief Research Officer (首席研究員)
Mark Chen 2025/01/29 凌晨發了一波推文評價 Deepseek R1 的論文
https://i.imgur.com/A73X07x.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/A73X07x.png?e=1738541638&s=VnvOl6H_kaSYigL6luqrVQ)
https://i.imgur.com/rjDczVH.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/rjDczVH.png?e=1738554103&s=vBfT6CrioDzSCy1XJEeUBA)
恭喜 DeepSeek 產出了一個 o1 級別的推理模型!他們的研究論文顯示,他們獨立發現了一些我們在通往 o1 道路上所找到的核心理念。
不過,我認為外界的反應有些過度,特別是在成本相關的敘事上。擁有兩種範式(預訓練和推理)的一個重要影響是,我們可以在兩個軸向上最佳化能力,而不是只有一個,這將帶來更低的成本。
但這也意味著我們有兩個可以擴展的軸向,而我們計劃在這兩個方向上都積極投入算力!
隨著蒸餾(distillation)技術的成熟,我們也看到降低成本和提升能力這兩者之間的關係越來越解耦。能夠以更低的成本提供服務(尤其是在較高延遲的情況下),並不代表能夠產生更強的能力。
我們將持續改進模型的低成本部署能力,但我們仍對研究路線保持樂觀,並將專注於執行計劃。我們很興奮能在本季度及今年內推出更優秀的模型!
Congrats to DeepSeek on producing an o1-level reasoning model! Their researchpaper demonstrates that they’ve independently found some of the core ideas
that we did on our way to o1.
However, I think the external response has been somewhat overblown,
especially in narratives around cost. One implication of having two paradigms(pre-training and reasoning) is that we can optimize for a capability over
two axes instead of one, which leads to lower costs.
But it also means we have two axes along which we can scale, and we intend topush compute aggressively into both!
As research in distillation matures, we're also seeing that pushing on cost
and pushing on capabilities are increasingly decoupled. The ability to serve
at lower cost (especially at higher latency) doesn't imply the ability to
produce better capabilities.
We will continue to improve our ability to serve models at lower cost, but weremain optimistic in our research roadmap, and will remain focused in
executing on it. We're excited to ship better models to you this quarter and
over the year!
-----
2025/01/28
CEO Sam Altman 也發了一些推文
deepseek's r1 is an impressive model, particularly around what they're able
to deliver for the price.
we will obviously deliver much better models and also it's legit invigoratingto have a new competitor! we will pull up some releases.
but mostly we are excited to continue to execute on our research roadmap and
believe more compute is more important now than ever before to succeed at ourmission.
the world is going to want to use a LOT of ai, and really be quite amazed by
the next gen models coming.
look forward to bringing you all AGI and beyond.
DeepSeek 的 R1 是一款令人印象深刻的模型,特別是在這個價格範圍內所能提供的性能。我們當然會推出更強大的模型,而且有新的競爭對手確實讓人振奮!我們會發布一些新版本。
但最重要的是,我們對繼續推進研究路線圖感到興奮,並且相信現在比以往任何時候都更需要強大的算力來實現我們的使命。
全球對 AI 的需求將會大幅增加,未來一代的模型將讓人驚艷不已。
期待為大家帶來 AGI,甚至更遠大的突破。
-
下面的梗圖很好笑
https://i.imgur.com/rjVPsjX.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/rjVPsjX.png?e=1738602677&s=FWQXOvRzcx6UQQ5GTb1Ivg)
※ 引述《andy3021515 ()》之銘言:
: 中央社
: OpenAI:已掌握DeepSeek盜用模型證據
: 2025/1/29 20:59(1/29 21:17 更新)
: https://www.cna.com.tw/news/aopl/202501290140.aspx
: (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日: 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek: 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。
: 中國的DeepSeek因標榜低成本也能訓練出強大人工智慧(AI)模型,顛覆AI訓練不能沒有: 精密昂貴晶片的刻板印象,引發市場強烈震盪。
: 不過,總部設在美國舊金山(San Francisco)的OpenAI公司向英國「金融時報」(
: Financial Times)證實,已掌握疑似DeepSeek利用「蒸餾」(distillation)技術的證: 據。OpenAI是聊天機器人ChatGPT的開發商。
: 蒸餾技術可讓開發者利用更大、更強的模型輸出成果,在較小模型獲得更出色的表現,並: 讓他們在特定任務上以更低廉的成本得到類似結果。
: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競: 爭,將違反OpenAI服務條款,因此產生疑慮。
: OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何: OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。
: 彭博(Bloomberg News)28日引述知情人士說法報導,微軟(Microsoft)和OpenAI正在: 調查一群與DeepSeek有關聯的人是否以未經授權的方式,不當取得OpenAI技術輸出的資訊: 。
: 報導指,微軟維安研究員2024年秋天觀察到有人利用OpenAI應用程式介面(API)輸出大: 筆數據,他們認為這些人可能與DeepSeek有關。
: 美國總統川普政府的AI專家塞克斯(David Sacks)也在福斯新聞(Fox News)訪談中提: 及蒸餾技術,並稱有「大量證據」顯示DeepSeek是仰賴OpenAI模型輸出,以協助開發自家: 技術,但他也沒有進一步提出證據。
: 另一方面,美國Scale AI執行長汪滔(Alexandr Wang)日前表示,DeepSeek應握有多達5: 萬顆輝達(Nvidia)H100晶片,以開發現有模型。美國億萬富豪馬斯克(Elon Musk)也: 在社群平台X回應相關推文,並加上「顯而易見」的評論,似乎同意這項說法。
: 由於H100晶片被禁止向中國出口,這形同直接挑戰美國出口管制政策。有分析直指,
: DeepSeek繞道囤積大量晶片以規避美國管制,因此其真實開發成本恐怕遠高於宣稱的558: 萬美元(約新台幣1.83億元),未來也勢必將引發美方加強管制。(譯者:楊昭彥/核稿: :施施)1140129
: 心得/評論:
: 彭博又是哪裡來的野雞雜誌,我們Deepseek 最強啦
: nvidia 股價溜滑梯到底了嗎
: 如果這是真的
: 那代表這幾天的新聞不過就是中國的大外宣
: 跟韓國的室溫超導體,中國的雲巴智軌一樣
: 喊得很大聲,做出來的不過就那樣
--
結論差不多 DS提供了一個降低成本的做法 openai將
會應用這做法讓自己的模型更強 成本更低
米國的抄不算抄
Openai真的輸不起了
GPT的mini系列可以更省吧
openAI在做的是在前面開路 試驗不一定能成功的事物
DS做的事是已經知道可以成功 但他更便宜高效
以前沒想過先進商用AI成本可以這麼低 你看一大票AI新創甚至Cloudflare、Perplexity都開始陸續引入 價格戰開始
我們可以更省!?這是好還是壞啊…
本來這兩件事難度與投入 光試錯成本就天差地別
DeepSeek做的其實是大規模商業化的關鍵
開源了阿 以後o1可以套類似r1的模組免費給大家用
省成本阿
但你要最強的那些 還是得前面堆屍阿
我不會評價孰高孰低 就跟SpaceX可以徹底商業化太空
部屬一樣
所以真的就是:喔喔感謝DS提供一個更有效率的方法
你可以滾了
沒有什麽可以滾這種事 Deepseek 現在已經全線開花 如果按照 ChatGPT 公佈的現在仍然持續虧損 這波又要跟 Deepseek 下去玩價格戰的話 對 OpenAI 一定更傷 Perplexity
https://i.imgur.com/rDAhYVD.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/rDAhYVD.png?e=1738588764&s=UmifZ04kFpoKCsxlqr5tPQ)
Cloudflare
https://i.imgur.com/0pbumC2.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/0pbumC2.png?e=1738569101&s=XPfxidJD69O3lyEbhZF3Ng)
Poe
https://i.imgur.com/2rEIVOQ.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/2rEIVOQ.png?e=1738548236&s=oLyZjOFxL_kHCAzcmwOwOQ)
Monica
https://i.imgur.com/OEYrDqz.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/OEYrDqz.png?e=1738574234&s=vjm-Ov0NL1QsaLJckck9Ow)
Felo
https://i.imgur.com/ytQDXEt.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ytQDXEt.png?e=1738583713&s=fuDCb1x_yZ67RD_VT5bAkg)
Sider
https://i.imgur.com/ytQDXEt.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ytQDXEt.png?e=1738583713&s=fuDCb1x_yZ67RD_VT5bAkg)
Groq
https://i.imgur.com/sRE59mc.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/sRE59mc.png?e=1738549190&s=_aQBd79dv1C3ahf6ssZq1w)
我是覺得這麼簡單 會不會跑出一堆阿貓阿狗套皮
最早不試也滿地套皮在那收訂閱費 還紅過幾個
什麼90年代畢業照生成器之類的
就是打開潘朵拉的盒子阿 AI服務突然門檻變低很多了
專業小規模語言團隊bussiness model會快速成長
但小規模語言終究還是專業領域 所以門檻還是在那邊
我就舉例了 你用4O會給你整段程式碼 但R1只會給你數
行要修改的部分
DS在做的 降低成本 給AI大廠一個新方向
答案抄起來CC
對消費者來說 都是有利的 有些人眼裡只有政治
下面有一個一般user的推文 One lesson to take from this: a model that is 90% as good as o1 but with no usage limits is an OOM more useful in a knowledge worker’s daily life than an o1 with ~10 queries a day. In the 3 days of testing R1, I have probably sent 10x as many queries as I have to o1 in the past three months combined — despite being a ChatGPT Plus subscriber. A great model that I can work and iterate together with — without concern of getting cut off after a handful of messages — is so much better than a slightly better model that I can speak to for 5 minutes a day. 從這件事學到的一點是:一個效能達到 o1 90% 的模型,但沒有使用限制,對知識工作者 的日常生活來說,比起每天只能發送約 10 次查詢的 o1,有數量級更高的實用性。 在測試 R1 的三天內,我發送的查詢數量可能是過去三個月內對 o1 查詢總數的 10 倍— —儘管我是 ChatGPT Plus 訂閱者。 一個可以無限制地與我一起工作、反覆試驗的優秀模型,遠比一個稍微強一些但每天只能 使用 5 分鐘的模型要好得多。
我們早就研究出來了 但是我們沒有發布而已
前 Meta SWE 在底下酸他 Thanks for wasting everyone’s fucking time protecting proprietary training techniques that will eventually come out anyway.
ClosedAI. 感謝你浪費大家的時間來保護那些最終還是會洩露的專有訓練技術。
封閉AI。
是說最後一段不是Sam的推文嗎
我有備註不過不太明顯 上色了
不是AI大廠一個方向 而是開創一個新的產業: 小模型
所以請大家支持openai
結論
他的意思是借用deepseek的優異之處配上它們自身優
異的算力儲備 會產生更美好的成果 邁向AGI? 本夢
比又來了
其實很多人也都在討論4O本身也是RL 他們沒公布而已
前面講蒸餾 也很明顯
DS就是佛開源大家一起捲CC
這本來就是好事 目前很多大公司都禁止員工把資料喂
給AI 現在可以低成本建置各公司建置自家AI的意願提
升 硬體需求應該會越來越多
慘了 豪紳們的錢還沒刮完 就要開始降價了
能降硬體成本就是好事 有人帶頭在想辦法算法降成本
其他人跟上就好
一開始說沒要盈利 要開始圈錢了卻殺出個程咬金
他講的就這幾天一堆人講過的 就中小企業自用CP值高
大語言存在性還是必要阿
一般人還是大模型好用 專業人士用小模型
大模型*
R1就真的把他的推導過程全部寫給你看阿
現在的大模型等於以後的小模型
大模型太雜了 邊際成本太高 所以才有小模型的需求
效率化是好事
講真原本高不可攀的AI中小能插一腳反而會帶動硬體吧
急了
更低的成本 更高的售價
NVDA : 躺著中槍 華西街:不是,我早想砍你很久了
要看就是了,感覺有點像當初的挖礦潮,H100不是人
人都能買但是5090可以考慮,只是5090銷量能否補上
要觀察,也有可能乾脆利用既有的雲平台
應該像是公司會建置自家NAS一樣 自家資料拿來餵自
家AI才放心
帶動硬體我不敢說 因為租賃平台不跑大模型情況下算
力應該足夠給數千倍的小模型跑
租賃平台當然有市場 如果需求變多 租賃平台也要擴
張硬體採購 不過有技術保密需要的公司應該還是會建
置自家的AI 吧
就OpenAI貴大家不爽 一天限額使用是手遊呢==
5090不夠賣吧
closedAI就真的賣太貴了 大家一起卷對user很好啊
翻譯:請大家繼續每個月花200美金支持我們喔!
OpenAI裡也有中國人 中又贏
除非封閉式ai有更特別之處 類似頻果vs 安卓 不然
openai無法長久
重點在 還需不需要跟著一起搶購最貴的最新款的
還不是要用OpenAI, 流量大戶可以加價給他買
塞港缺櫃報復性消費人人搶 一櫃10000鎂也得吞
不塞了有櫃了 反而大家開始等等看會不會更便宜
首先,你要釀得出酒來
所以才會飢餓行銷搞限量維持供不應求才能維持高毛利
其實 Gemini 2.0 flash thinking 目前也是無價搜尋
、更大量 Token 以及有相對接近 o1 的能力,但 DS
的開源、自由部署以及新的思路三點齊下才是讓整個網
路流量爆炸的原因
甚至如果你只是為了 LLM 的功能,一般使用者現在已
經可以一毛不花的使用近 o1 水準的模型了
自己人,蒸餾沒事兒
以後就是客製化,跟選電腦配備,軟體也有分等
兩年前是哀鳳時刻的話 現在就是小米時刻?xd
當成IOS跟安卓就好惹
現在任何人都能在自己電腦裝一個啊
我電腦跑不動R1,但我也裝了一個蒸餾版
好的Nvidia 40見
開源本來就是讓人拿來用的啊,只要不要用完以後反
控對方抄襲就好
本地監製R1硬體需求超低,gg準備崩盤了
本地建置
帥
黑起來
美國人的抄能算抄嗎
meta那個有夠酸,笑死
看看前幾篇吵成這樣 想說哇小島有這麼多AI專業人士
那應該可以成為AI大國唷!! 哈哈 殊不知一堆鍵盤手啦
這人也是中國人,該不會資料就他給的吧
perplexity好像付費板材可以用R1...=.=
免費版不能挑模型啊
Mark Chen是台灣人... 母親是清大教授
之前有人就在猜這些大廠已經在用自家大型模型來訓練
小型模型來直接應用獲利
限額使用真的是硬傷
可以確定當高訂商品的市場策略被破壞了,白菜價預備
~
蘋果有什麼特別之處
真香.jpg
大概就是訓練門檻變低,遍地開花,但還是需要硬體提
供算力,需求不會減少,但會分散。
硬體仍有需求,但就不是非得短時間追求最頂的效能
就不需要那麼多先進製程,用三星intel也可以,gg領
先地位直接被軟體演算法打折
有競爭才有進步,對ai開發才好
OpenAI 的首席研究員也是中國人?
OpenAI 不怕燒錢
那個英文留言真的說到我心坎 對使用者 好用就王道
一堆美國大廠都支援deepseek 你還在吵無法查64?
57
DeepSeek這玩意不管是真是假,但的確撼動到US金融市場 所以過去24小時的劇情是這樣發展的 1.正在為聯邦預算頭痛的DOGE馬,開了第一槍,畢竟社保基金還一籮筐在 股市,這錢無論如何是不能賠的,NVDA不小心搞崩,會帶垮七仙女的 先不管有沒有驗證,既然屁股在那裡,先喊詐騙再說44
比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…23
各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強16
現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤 那東西只是讓模型去向鸚鵡一樣 去做文字接龍 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback) 就是要人類針對不同數據給意見 這個是要給標籤 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback32
各位是不是忘了 中國人文化 先說ㄛ 我沒深究 但我六年前影像的 我猜原理應該還是差不多 AI 發展幾十年 論文裡從沒看過 模型能只接把算力幹掉90%的 偏偏中國人就可以,雖說中國人也發表過幾篇幾十萬引用的優秀模型 但經典開源模型裡 通常會給出爆
以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因1
前文恕刪 : 看到這東西,反正是開源的,程式碼都攤開在那邊給你看 : 應該是要想著怎麼去利用,而不是討論中/美或成最大贏家嗎? : 怎麼搞到變成政治意識形態的爭執了? : 有些推文一直扯到超導體,我就不懂有什麼可比性...7
這篇文章的核心意思就是 我們掌握著一些竅門,可以提升回答質素的那些,我們早就實踐,而且怕被快速追上,所以把他們閉源了 但是這些訣竅被中國人自己研究出來了 還有一些技巧,早就可打破一味堆算力的瘋狂勢頭,但是為了保護美國七巨頭現在 極好的股票上升勢頭。我們把它們擱置了,ds一出,我們不得不把低成本部署的算法都拿出來準備實施了
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。47
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。24
[爆卦] openAI 首席研究員來自台灣Deepseek事件後 OpenAI首席研究Mark chen 出來回應Deepseek Mark chen 2012年畢業於MIT18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。11
Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子DeepSeek其實真正的創新在model的高效設計,其真正的關鍵在efficient MOE還有MLA設計 這其實是2024年初DeepSeek V2就發表的東西 R1是把這個高效model設計+O1推理模型的LLM+RL合併出來的效應 我覺得歐美廠商因為本錢大所以忽略了降本增效的飛輪效應,所以第二個推理模型反而是中 國公司出圈了,推理模型的Test Time Compute對模型效率的敏感性就非常強烈了,訓練中2
Re: [新聞] DeepSeek R1來了,追平o1!它現在不但比OpenAI開放,也但是問題在於,如果中國中小公司用沒有一個海歸的團隊 就做出了這麼優秀的演算法優化 那如果全世界一起繼續優化,這半年又大幅發生成本降低怎麼辦,變形金剛模型其實算法主體框架五六年沒有大的進化了 所以輝達和openai的只有堆算力一條路的敘事欺騙了世界兩年,現在敘事光環已破 用戶尤其是大用戶必然要重新審查自己的對輝達下單量。觀望或者只買原計劃的一部分是理性的1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是6
[轉錄] 阿特曼對DeepSeek做出回應了DeepSeek洗版全世界三天,OpenAI執行長阿特曼終於針對DeepSeek發話啦 deepseek's r1 is an impressive model, particularly around what they're able to deliver for the price. we will obviously deliver much better models and also it's legit invigorating to have a new competitor! we will pull up some release
70
[情報] 114年02月19日 三大法人買賣金額統計表98
Re: [請益] 戰爭時的資產安排31
[標的] 3037 欣興AI未來多26
[標的] 00712有點猛29
Re: [新聞] Trump threatens 25% tariffs on fo26
Re: [新聞] 獨/蛋價腰斬飼料又漲蛋農雪上加霜 盼提9
Re: [新聞] 美俄結束停戰會談!川普控「烏克蘭先對俄32
[標的] 1789 神隆(第四次)18
Re: [新聞] 「陶朱隱園」宣布正式開賣 單價估300萬19
[標的] 蛇年中小多9
[情報] 0219 上市投信買賣超排行9
[情報] 是方(6561.TW) Q4 4.097
Re: [請益] 戰爭時的資產安排15
[請益] 國泰複委託交割問題26
Re: [標的] 3227-原相 股版首發2
Re: [新聞] 全包了!台積電一口氣買下全台最大風場20X
Re: [新聞] 獨/蛋價腰斬飼料又漲蛋農雪上加霜 盼提3
Re: [新聞] 美能源部長:2050淨零排放是邪惡的目