Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤
那東西只是讓模型去向鸚鵡一樣 去做文字接龍
但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback)
就是要人類針對不同數據給意見 這個是要給標籤
所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback這個人工成本是很大
Deepseek-R1跟大家說 我們不用人類給的feedback了 我們可以免除這塊
大家都在討論的叫做sythetic dataset
這個步驟是來自於你有許多野生數據 但需要加上標籤 那標籤可以拿更強大模型來標註
比方說 一道數學題目 你可以用人類寫解答 或者要拆步驟 每步驟讓gpt-4o寫個答案
這就是所謂synthetic dataset 然後用這組數據去調教模型 這步驟會決定
你的模型多智能 這過程就是call api 現在ai界都這樣幹 缺點就是訓練模型上限就是
原始母模型 這跟傳統蒸留 用模型直接交模型不太依一樣
這種方式就是可以用低成本 接近gpt-4o 但你如果這樣幹 你模型就不能商業化
頂多發表到文章 講你這是怎樣做 最經典例子就是LLaVA那篇 講如何用gpt4o
產生sythetic dataset讓textLLM 變成多模態 直接打爆其他大廠高成本多模態
之前網路上已經有人在討論 到底deepseek有沒有用api去合成數據
https://reurl.cc/A6ab98
https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
在training這部分還沒定案之前 大家就先吃瓜看看吧 @@
但這思路還是有可取之處 就是模型教模型 不要再用人類RLHF去教模型
https://x.com/op7418/status/1884065603184681162
這有點像回到當年alphago那條路線 模型互相教
下面網址是第三方 大家要複製deep-seek R1開源計畫 任何人想參加都可以
https://huggingface.co/blog/open-r1
目前公認是dep-seek R1隱藏了
Replicate the R1-Distill models by distilling a high-quality
reasoning dataset from DeepSeek-R1.
上面專案在徵求大家嘗試去製造出合成數據
好了 我要去炸薯條了 @@/ 救救我
※ 引述《IBIZA (溫一壺月光作酒)》之銘言:
: ※ 引述《mangle (mangle123)》之銘言:
: : 比較好奇這段:
: : 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。
: : OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。
: : 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…
: : 不過要怎麼定義「與openai 競爭的模型」? 因為deepseek 也沒盈利而且也開源學習,他也承認他不只從chatgpt訓練也參照不少,deep seek 也認為自己是chatgpt
: : 所以是真有盜竊疑慮,還是業界常識的互相學習使用? 如何定義這部分
: 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣
: AI = 模型的程式碼+訓練
: 能開源的部分只有程式碼, 訓練是看各自調教
: 模型的能力夠, 差不多的調教方式就會得到差不多的結果
: 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強
: 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法
: 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識
: 監督微調: 有了基本能力之後, 模型開始有推理能力
: 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的
: 之前所謂的貼標籤, 就是這個階段
: 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他
: 強化學習: AI自己跟自己練習
: 不管是meta還是google, 之前都是照OpenAI這個成功模式做
: 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車
: 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果: 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法
: 他的回答是這樣
: https://i.imgur.com/ey5mX61.png
![圖 OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61.png?e=1738608161&s=U3o_ZtWWD_PFHdnEzOW4KA)
: 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法
: 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例
: 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼
: 有頭有尾, 要生出中間的推理就會比較容易
: 但這裡有個問題
: 你要用蒸餾讓一個模型得到另一個模型類似的能力
: 通常就是需要老師模型產生極大量的練習後結果
: 才能傳授畢生功力給學生模型
: 如果ChatGPT是開源模型, 可以自己部署在自己平台上
: 要做這樣大規模訓練是有可能
: 但ChatGPT無法部署在自己平台
: (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾)
: 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練
: 這難度極高啊....
: (ChatGPT剛剛教我另一個方法
: 就是拿一個原本就有ChatGPT4能力的模型
: 這樣只要少量訓練, 就能超越ChatGPT 4
: 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD
: 你還是得先得到這個模型啊...就是V3
: 那V3怎麼來?)
--
炸薯條,甘薯?馬鈴薯?
美國大爺 薯條這種小事 小弟來幫你炸就好
簡單的說就是省掉RLHF的成本?
你翹著腳 喝著82年的拉菲 等我服務就好
答案不就很明顯 難道真的可以無中生有
推文感覺澀澀的
如果這麼屌在GPT出來之前早該有了
裁判、球證、旁證都是我的人 你怎麼跟我鬥?
好多英文,不過跟我想的一樣
可能是因為要先有gpt之流的強大模型
才能模型教模型
0到1是最難的
所以openAI剛開始的數據蒐集 商業化也會危險嗎
專業
DeepSeek的論文自己說 在沒有任何監督數據的情況下
自我演化
DS是不貼標籤的
用AI訓練AI,天網一定就是這樣誕生的
找學霸幫我畫重點的意思 靠腰阿如果重點越畫越細,
到最後不就等於學霸在答題
一個互尻的概念0.0
自我演化給時間就變AGI了阿 恭喜實現AGI
幾個月就超越GPT 想必年底就屌打GPT了吧
LD大是薯條之王,加大是直接一卡車
西神壇
我認為是有的
從資工人的角度看這種做法很合理啊
比較值得討論的是為何會被中國人先做出來
照理說 那些大廠裡的資工高手一定想的到
矽谷大老發文就是不一樣
大概覺得沒必要?一直疊高階晶片就好了
不可能沒有監督 機器學習中無監督都是沒意義的東西
最後有意義的東西都是後來人類賦予上去的
有些看來沒監督的東西只是你表面看不出來監督
其實初始都是從人類監督開始的
k-means 分的類你不定義就是看起來很酷的垃圾而已
我已經和同事商量好年後要去賣酸菜魚了(X
RL我記得不用給標籤 只需要自訂一個目標
最典型的就是賽車越快到達目的地碰撞越少分數就越高
但llm的回答千百種…好吧應該也算是一種標籤
有點不懂,只不過跟我想的差不多。
學到了
總結就是模型教模型,好班的學生自己教自己
以前的模型是老師教學生
補充的是RLHF後衍生的方向是期待AI代替人類reward
,R1讓模型自訓練
曾有虛擬老師 https://imgur.com/7qegQQH
57
DeepSeek這玩意不管是真是假,但的確撼動到US金融市場 所以過去24小時的劇情是這樣發展的 1.正在為聯邦預算頭痛的DOGE馬,開了第一槍,畢竟社保基金還一籮筐在 股市,這錢無論如何是不能賠的,NVDA不小心搞崩,會帶垮七仙女的 先不管有沒有驗證,既然屁股在那裡,先喊詐騙再說44
比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…23
各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強32
各位是不是忘了 中國人文化 先說ㄛ 我沒深究 但我六年前影像的 我猜原理應該還是差不多 AI 發展幾十年 論文裡從沒看過 模型能只接把算力幹掉90%的 偏偏中國人就可以,雖說中國人也發表過幾篇幾十萬引用的優秀模型 但經典開源模型裡 通常會給出爆
以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因1
前文恕刪 : 看到這東西,反正是開源的,程式碼都攤開在那邊給你看 : 應該是要想著怎麼去利用,而不是討論中/美或成最大贏家嗎? : 怎麼搞到變成政治意識形態的爭執了? : 有些推文一直扯到超導體,我就不懂有什麼可比性...50
OpenAPI 的 Chief Research Officer (首席研究員) Mark Chen 2025/01/29 凌晨發了一波推文評價 Deepseek R1 的論文 恭喜 DeepSeek 產出了一個 o1 級別的推理模型!他們的研究論文顯示,他們獨立發現了7
這篇文章的核心意思就是 我們掌握著一些竅門,可以提升回答質素的那些,我們早就實踐,而且怕被快速追上,所以把他們閉源了 但是這些訣竅被中國人自己研究出來了 還有一些技巧,早就可打破一味堆算力的瘋狂勢頭,但是為了保護美國七巨頭現在 極好的股票上升勢頭。我們把它們擱置了,ds一出,我們不得不把低成本部署的算法都拿出來準備實施了
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預21
[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾阿肥實在受不了一堆文盲吵不對焦還硬要吵 來先來看看 GPT是怎麼解釋蒸餾的 覺得太長的可以直接下滑到總結 Q: 在Deep learning領域 什麼是蒸餾? 以下來自ChatGPT的回答:8
[問卦] 如何利用deepseek開源模型 建構台灣AI聽說 deepseek-R1 是目前開源AI模型第一名 我有一個大膽的想法 既然這個模型是開源的 我們可以使用這個模型來建構台灣的 openAI 擺脫對美國AI大廠的依賴 是不是很聰明啊?8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用6
[問卦] Deepseek又推出一個開源的多模態模型NEW Deepseek-Janus-Pro-7B Update is INSANE! (FREE!) 這個影片直接比較新模型跟OpenAI在多模態上的能力比較 更重要的是這個模型一樣是開源的,下面是官網可以直接試用4
Re: [問卦] deepseek強在哪裡不用講太多學術性的東西 有人用 DeepSeek R1的 1.5B版本在手機上運作 一個在數學問題上比GPT-4o 和 Claude 3.5還要強的迷你小模型可以在手機上 運作,你認為這屌不屌1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平- Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟 llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模 型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。 目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很 省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1
96
[標的] 聯發科 空74
[情報] 3481群創 股東會紀念品:白米一公斤38
[請益] 台灣貿易順差超大 但為何台幣貶成這樣?41
[心得] 資料中心投資方向17
[情報] 3189景碩 113EPS 0.11(Q4 -0.55) 股利118
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 418
[情報] 2942京站 獨董彭振聲 因個人生涯規劃辭任73
[情報] 0217 上市外資買賣超排行19
Re: [新聞] 營收衰退10.72% 台旅館業憂倒閉潮12
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 4爆
[標的] 大盤 空26
Re: [標的] TYO 7803 武士道無腦多X
[標的] 台指期 多8
[情報] 00946 114/03/06 預估除息0.025元47
[心得] 哲哲: 以後滿街自駕車 台股今年260007
[心得] 券商app年度回顧21
Re: [新聞] 輝達GB200出貨量遭爆砍3成 一掛AI伺服器4
[情報] 8028 昇陽半導體1月自結0.431X
Re: [新聞] 遭聯電切割「已非榮譽董事長」曹興誠回應20
Re: [請益] 台積電被勒索救Intel 沒有涉嫌背信罪喔8
Re: [新聞] 三大國營事業去年虧損 水電油價都要檢討56
[情報] 114年02月17日 三大法人買賣金額統計表4
Re: [請益] 戰爭時的資產安排16
Re: [新聞] DeepSeek推動1.3兆美元回流中國股市 大18
[情報] 0217 上市投信買賣超排行X
Re: [新聞] 環狀線災損雙北求償逾19億 中工:鑑定單位黑X
Re: [請益] 戰爭時的資產安排