Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
我先講我非AI專業
但這件事情基本就是鬼扯
甚麼叫做利用O1蒸餾出R1
你要用API抓多少資訊量跟TOKEN才做得出來
然後這件事情OPENAI還會不知道?
這是GPT回我的
透過 API 硬訓練一個能夠與 GPT-4 相媲美的模型,基本上是不可能的,原因如下:
1. 訓練大規模語言模型(LLM)的數據量極大
GPT-4 這種級別的模型通常訓練數百億到數兆個 Token。以 OpenAI 的 GPT-4 為例,其訓練數據量非常龐大,遠超 API 能夠提供的輸出量。如果一家公司試圖透過 API 蒐集足夠的數據來訓練一個類似的模型,會面臨幾個根本性的問題:
Token 成本極高:
假設要訓練一個類似 GPT-4 的模型,至少需要 數千億到數兆級的 token。但 OpenAI
API 計價昂貴,以 GPT-4 Turbo(8k) 為例:
1k tokens 輸入約 $0.01,輸出 $0.03
假設要獲取 1 兆 tokens(這仍遠低於 GPT-4 訓練的規模):
輸入成本:$10M(1 千萬美元)
輸出成本:$30M(3 千萬美元)
這還只是獲取數據的成本,並未包含訓練成本!
訓練硬體需求極高:
GPT-4 級別的模型訓練需要 數萬到數十萬張 A100 或 H100 GPU,加上分布式計算架構、強大的基礎設施(如 TPUs、NVLink、高速存儲等)。
目前,只有少數科技巨頭(OpenAI、Google DeepMind、Anthropic、Meta)有這種算力。2. OpenAI 及其他 API 提供者會限制速率
OpenAI、Anthropic、Google 都有 API 速率限制,防止這種大規模查詢行為。例如:
API 請求有 速率上限,即便是企業級客戶,也不可能無限次查詢。
OpenAI 可偵測異常流量模式,如果一個帳戶開始以異常高頻率查詢,可能會被封鎖或調查。
API 可能有內建的 水印技術(Watermarking),能夠識別是否有人嘗試透過 API 逆向工程訓練模型。
3. 透過 API 訓練的模型質量很差
即使繞過上述問題,透過 API 獲取的只是模型的輸出(Soft Labels),而不是完整的訓練數據,導致以下問題:
知識有限:API 只能回傳有限的內容,而 GPT-4 是基於更大的數據集(書籍、論文、網站等)訓練的,無法還原原始的知識基礎。
風格模仿但泛化能力差:學生模型可能可以模仿 GPT-4 的回應風格,但缺乏真正的理解與推理能力。
無法獲取內部權重與梯度更新:深度學習模型不只是靠輸入與輸出,還需要內部梯度更新來調整權重,而 API 無法提供這種資訊。
4. 真正可能的「輕量級蒸餾」方式
儘管完全複製 GPT-4 幾乎不可能,但仍有一些可能的方式來部分學習閉源模型的行為:
小規模指導性訓練(Fine-tuning):
例如 Stanford Alpaca 項目,就是利用 GPT-3.5 API 生成了一小部分數據(5 萬條樣本),用來微調 LLaMA 7B,但它的能力遠遠比不上 GPT-4。
增強式學習(Reinforcement Learning with AI Feedback, RLAIF):
透過 API 讓 GPT-4 幫助標註「哪個回應比較好」,然後用這些標註來強化一個開源模型,例如 LLaMA 或 Mistral。
少量特定領域資料的風格模仿:
例如用 GPT-4 API 生成一個領域(如醫療、法律)的數據集,然後訓練一個專門的 AI,這樣的應用可能不會違反 OpenAI 的 ToS,但也無法真正模仿 GPT-4 的泛用能力。
結論
完全透過 API 逆向工程 GPT-4 來蒸餾一個相似的模型,基本上是不可能的。
API 成本極高,訓練 GPU 資源需求極大,讓這種方式在現實中難以執行。
OpenAI、Anthropic 等公司有 API 速率限制與異常行為偵測,防止這種濫用。
即使透過 API 硬撐出一個模型,它的泛化能力、理解能力都遠不如 GPT-4。
真正有效的方法還是依賴開源模型(如 LLaMA 3、Mistral 7B)或自己收集高質量的語料來訓練,而不是試圖從 API 硬抄模型的知識。
說穿了要是這件事情這麼簡單
O1早就被美國其他AI公司抄爆了好嗎
拜託一點
要抄到整個模型
這成本要多高?
重點還要刷到你openai不知道
這難度比綁架土耳其人還難巴
※ 引述《LDPC (Channel Coding)》之銘言:
: 現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤
: 那東西只是讓模型去向鸚鵡一樣 去做文字接龍
: 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback)
: 就是要人類針對不同數據給意見 這個是要給標籤
: 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback: 這個人工成本是很大
: Deepseek-R1跟大家說 我們不用人類給的feedback了 我們可以免除這塊
: 大家都在討論的叫做sythetic dataset
: 這個步驟是來自於你有許多野生數據 但需要加上標籤 那標籤可以拿更強大模型來標註: 比方說 一道數學題目 你可以用人類寫解答 或者要拆步驟 每步驟讓gpt-4o寫個答案
: 這就是所謂synthetic dataset 然後用這組數據去調教模型 這步驟會決定
: 你的模型多智能 這過程就是call api 現在ai界都這樣幹 缺點就是訓練模型上限就是: 原始母模型 這跟傳統蒸留 用模型直接交模型不太依一樣
: 這種方式就是可以用低成本 接近gpt-4o 但你如果這樣幹 你模型就不能商業化
: 頂多發表到文章 講你這是怎樣做 最經典例子就是LLaVA那篇 講如何用gpt4o
: 產生sythetic dataset讓textLLM 變成多模態 直接打爆其他大廠高成本多模態
: 之前網路上已經有人在討論 到底deepseek有沒有用api去合成數據
: https://reurl.cc/A6ab98
: https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
: 但這思路還是有可取之處 就是模型教模型 不要再用人類RLHF去教模型
: https://x.com/op7418/status/1884065603184681162
: 這有點像回到當年alphago那條路線 模型互相教
: 下面網址是第三方 大家要複製deep-seek R1開源計畫 任何人想參加都可以
: https://huggingface.co/blog/open-r1
: 目前公認是dep-seek R1隱藏了
: Replicate the R1-Distill models by distilling a high-quality
: reasoning dataset from DeepSeek-R1.
: 上面專案在徵求大家嘗試去製造出合成數據
: 好了 我要去炸薯條了 @@/ 救救我
: ※ 引述《IBIZA (溫一壺月光作酒)》之銘言:
: : 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣
: : AI = 模型的程式碼+訓練
: : 能開源的部分只有程式碼, 訓練是看各自調教
: : 模型的能力夠, 差不多的調教方式就會得到差不多的結果
: : 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強
: : 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法
: : 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識
: : 監督微調: 有了基本能力之後, 模型開始有推理能力
: : 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的
: : 之前所謂的貼標籤, 就是這個階段
: : 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他
: : 強化學習: AI自己跟自己練習
: : 不管是meta還是google, 之前都是照OpenAI這個成功模式做
: : 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車
: : 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果: : 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法
: : 他的回答是這樣
: : https://i.imgur.com/ey5mX61.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61.png?e=1738542625&s=sa1RVOobzo5Iwe0tvtH9Iw)
: : 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法
: : 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例
: : 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼
: : 有頭有尾, 要生出中間的推理就會比較容易
: : 但這裡有個問題
: : 你要用蒸餾讓一個模型得到另一個模型類似的能力
: : 通常就是需要老師模型產生極大量的練習後結果
: : 才能傳授畢生功力給學生模型
: : 如果ChatGPT是開源模型, 可以自己部署在自己平台上
: : 要做這樣大規模訓練是有可能
: : 但ChatGPT無法部署在自己平台
: : (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾): : 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練
: : 這難度極高啊....
: : (ChatGPT剛剛教我另一個方法
: : 就是拿一個原本就有ChatGPT4能力的模型
: : 這樣只要少量訓練, 就能超越ChatGPT 4
: : 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD
: : 你還是得先得到這個模型啊...就是V3
: : 那V3怎麼來?)
--
你的第一句......
你是ai專業嗎?
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:50:52你都說你非專業 你的推論有啥證據力?
你只要有基本的邏輯常識就可以知道這件事情蠢到跟豬一樣
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:51:46他又不是說DeepSeek只用了ChatGPT的feedback去蒸餾
當然一樣有用原始的文本,但是在訓練上使用ChatGPT
給reward
首先 1.我要花錢用你的api跟你買你所謂的reward 這要花多少錢? 2.我花錢用你的api串你全世界跑完的data 這件事情openai會完全不知道 真的笑死人
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 01:57:10不要再用問llm 來發表高見了 看了好煩,明明就不懂
,還硬要用可能錯誤的資料來講得好像很懂一樣...
你厲害可以回一篇來蚊香阿
你不是專業的話 只少要有單吧xD
不過上一篇的r1是說有可能的gpt說不可能這好像代表
了什麼XD
最近很多政治狂熱者來
不問政治的話,DS還蠻好用的,便宜治百病
前一篇講很詳細了
別急,太急就露餡了
你如果仔細看過他最後連結就知道他那個單純就是在黑而已 這麼簡單他不去複製o1甚至之後的o3 去複製r1做甚麼 你把你們論述直接拿去問o1不就知道了
※ 編輯: dreambreaken (114.37.73.106 臺灣), 01/30/2025 02:27:21好了啦Nvidia 40塊見
沒仔細算過 但是看完你講的論點算一算應該是真的不
可能 有人說套api 都開源了更不可能 所以最後只能
猜是有很了解o1架構跟訓練方式的人跳槽過去
用極低的關鍵數據量去reward r1
57
DeepSeek這玩意不管是真是假,但的確撼動到US金融市場 所以過去24小時的劇情是這樣發展的 1.正在為聯邦預算頭痛的DOGE馬,開了第一槍,畢竟社保基金還一籮筐在 股市,這錢無論如何是不能賠的,NVDA不小心搞崩,會帶垮七仙女的 先不管有沒有驗證,既然屁股在那裡,先喊詐騙再說44
比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…23
各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強16
現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤 那東西只是讓模型去向鸚鵡一樣 去做文字接龍 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback) 就是要人類針對不同數據給意見 這個是要給標籤 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback32
各位是不是忘了 中國人文化 先說ㄛ 我沒深究 但我六年前影像的 我猜原理應該還是差不多 AI 發展幾十年 論文裡從沒看過 模型能只接把算力幹掉90%的 偏偏中國人就可以,雖說中國人也發表過幾篇幾十萬引用的優秀模型 但經典開源模型裡 通常會給出爆
以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因1
前文恕刪 : 看到這東西,反正是開源的,程式碼都攤開在那邊給你看 : 應該是要想著怎麼去利用,而不是討論中/美或成最大贏家嗎? : 怎麼搞到變成政治意識形態的爭執了? : 有些推文一直扯到超導體,我就不懂有什麼可比性...50
OpenAPI 的 Chief Research Officer (首席研究員) Mark Chen 2025/01/29 凌晨發了一波推文評價 Deepseek R1 的論文 恭喜 DeepSeek 產出了一個 o1 級別的推理模型!他們的研究論文顯示,他們獨立發現了7
這篇文章的核心意思就是 我們掌握著一些竅門,可以提升回答質素的那些,我們早就實踐,而且怕被快速追上,所以把他們閉源了 但是這些訣竅被中國人自己研究出來了 還有一些技巧,早就可打破一味堆算力的瘋狂勢頭,但是為了保護美國七巨頭現在 極好的股票上升勢頭。我們把它們擱置了,ds一出,我們不得不把低成本部署的算法都拿出來準備實施了
爆
Re: [請益] 費半成份股全線崩盤 怎麼辦?既然有人提推論,我就講看看訓練端 DSv3 論文中最大亮點,可能也是目前看起來崩盤的主要是 $5.77 million 的訓練成本 和他對比的是喇叭哥曾經說 GPT4 花了超過 $100 million 訓練 未公開的 GPT5 據 WSJ 說,每一次六個月訓練週期需要花超過 $500 million 簡單用 GPT-4 : DSv3 = o1 : DSR1 估計 o1,但應該更多啦,不過低估在這邊不重要36
[爆卦] OpenAI專家:大模型夠證明黎曼猜想知名理論計算機科學機構Simons Institute舉辦辯論: "目前基於縮放定律的LLM,能否在未來幾年內產生可以解決重大數學難題(如P≠NP、 黎曼猜想)的證明技術?" 正方OpenAI科學家Sebastien Bubeck表示29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了17
Re: [新聞] DeepSeek爆紅 藍委放話「台灣等著被智看這篇文章 -its-model-to-train-competitor/ai/amp/ 如果所言不假 那其實就是deepseek 拿人家的大模型訓練自己的小模型10
Re: [請益] 為什麼有人說AI會讓資工人失去工作?阿肥外商碼農阿肥啦! 我只能說當前甚至往後十幾年都很難完全取代,除非真正的AGI實現了,那取代的可能不 止資工人,而是整個人類社會了,想想看AGI都有人類智慧了,那鎖螺絲、自己修理自己 或是檢測同類機器人都是很簡單的,那幹嘛還找人類黑手? 先說說像GPT-4即便是大成功的當下,很多企業要復現這樣的模型難度也是跟登天一樣6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾5
Re: [閒聊] 用CHATGPT跑團基本上就是記憶力(連結上下文能力)問題, ChatGPT的記憶能力「據說」是4000個token 約= 3000個英文單詞。 無論GPT3 API或者前天的GPT3.5 API也是這樣,超過的連結不到就會跑設定, 就算你自己串API都不會得到比較好的結果,只是據說沒有倫理限制而已。 那真的想這樣玩「可能」可以怎麼做?5
Re: [心得] WWDC24節錄-系統級個人助理面世自己回自己的文,給想進入AI生活的人一點知識科普,順便闢謠一下網路上漫天飛的錯誤 資訊。 === 個人裝置跑『大模型、小模型』,大小如何定義? 以下節錄台大洪教授的臉書文字內容:3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事
96
[標的] 聯發科 空74
[情報] 3481群創 股東會紀念品:白米一公斤38
[請益] 台灣貿易順差超大 但為何台幣貶成這樣?41
[心得] 資料中心投資方向17
[情報] 3189景碩 113EPS 0.11(Q4 -0.55) 股利118
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 418
[情報] 2942京站 獨董彭振聲 因個人生涯規劃辭任73
[情報] 0217 上市外資買賣超排行19
Re: [新聞] 營收衰退10.72% 台旅館業憂倒閉潮12
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 4爆
[標的] 大盤 空26
Re: [標的] TYO 7803 武士道無腦多X
[標的] 台指期 多8
[情報] 00946 114/03/06 預估除息0.025元47
[心得] 哲哲: 以後滿街自駕車 台股今年260007
[心得] 券商app年度回顧21
Re: [新聞] 輝達GB200出貨量遭爆砍3成 一掛AI伺服器4
[情報] 8028 昇陽半導體1月自結0.431X
Re: [新聞] 遭聯電切割「已非榮譽董事長」曹興誠回應20
Re: [請益] 台積電被勒索救Intel 沒有涉嫌背信罪喔8
Re: [新聞] 三大國營事業去年虧損 水電油價都要檢討56
[情報] 114年02月17日 三大法人買賣金額統計表4
Re: [請益] 戰爭時的資產安排16
Re: [新聞] DeepSeek推動1.3兆美元回流中國股市 大18
[情報] 0217 上市投信買賣超排行X
Re: [新聞] 環狀線災損雙北求償逾19億 中工:鑑定單位黑X
Re: [請益] 戰爭時的資產安排