Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
→ William: 現代ML跟混沌有關?也太亂套了... 223.137.83.145 01/30 15:55→ William: 還有deepseek的實作就不是你想像的用同 223.137.83.145 01/30 15:59→ William: 一份資料重複學習.. 223.137.83.145 01/30 15:59→ William: deepseek r1跟你的論文的實作就不同..先 223.137.83.145 01/30 16:13→ William: 去看過deepseek的論文再來討論.. 223.137.83.145 01/30 16:13
不要在那邊吹啦!
deepseek的論文當然是一再吹噓自己的系統有多好
但是學界論文早就已經指出這種拿自己生成的資料再訓練的結果將導致AI 模型崩潰
這就是CHAOS理論中穩定收斂模型(之前講反了)
整個系統就只存在單一資料,其他有用的資料都被捨棄了
原生資料的多元性不見了
這就是知識蒸鰡的最大致命傷
也注定了他絕對不會超越原始訓練模型
這篇論文已經講得很清楚了
The Curse of Recursion: Training on Generated Data Makes Models Forget
https://arxiv.org/pdf/2305.17493
翻譯成中文就是遞歸的詛咒:AI生成資料的訓練使模型忘卻原始資料
你就不用在那邊硬ㄠ了
退化模型崩潰
退化模型崩潰是指退化學習過程,隨著時間的推移,模型開始忘記不太可能發生的事
件,因為模型因其現實投影而中毒。
文章「遞歸的詛咒:產生資料的訓練使模型忘記」探討了遞歸訓練模型對其產生資料的有害影響。這個過程被稱為“退化模型崩潰”,會導致退化學習週期,模型逐漸忘記實際的
資料分佈。這種遞歸訓練導致模型與罕見事件和異常值失去聯繫,從而隨著時間的推移簡化和扭曲了它們對現實的理解。
當模型隨著時間的推移,開始忘記或忽視不太可能發生的事件,因為它們越來越受到現實預測的「毒害」時,就會發生退化模型崩潰現象。這些模型不斷地從它們的產出中學習,而不是從各種新的現實世界數據中學習,從而強化了狹隘的視角。這種自我強化循環可以顯著影響模型識別和回應罕見或新事件的能力。
GenAI 工具通常充當“平均值的反芻者”,從廣泛的數據集中進行概括。然而,當輸入資
料因模型的輸出被回饋而變得逐漸統一時,反應的相關性和準確性可能會顯著降低。這種退化過程削弱了模型處理異常值或非典型案例的能力,而這對於細緻的決策和創新至關重要。
--
我覺得這很直覺啊 一直把AI模型的資料
餵進去訓練最後怎麼可能收斂到超越原
本的模型= =? 我不懂那麼難的數學
都覺得這結論很符合直覺= =?
不曉得有些人在跳針啥
所以業界做出一個跟學界理論推導結論不
同的結果表示業界在唬爛?而不是前去看
論文的assumption?我也是昏了
笑死!這是不同的論文 你連內容都沒看就在那邊跳針
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 16:29:47奇怪 中國人一直崩潰 怎麼不去對岸做
大事? 要協助祖國才能打死邪惡美爸爸
一樣啊,deepseek就不是用你想像的方法
訓練的..
正常的工程師應該是該去看怎麼從人家的
成果中學習..而不是否認..笑死
推F大 中國人就滾去對岸幹大事 慢走不送
這個跟混沌也沒關係 你的圖也完全
沒用到混沌兩字 根本就是不同東西
混沌理論是一個專門術語不要亂用
混沌理論就是再講遞回啦 資訊白癡就別在那邊耍寶了好嘛! 混沌理論(chaos theory)或稱動態系統理論(dynamical systems theory)起源於自然 領域的學者對於大自然許多無可解釋與預期現象的一種詮釋。這種存在我們生活週遭、複 雜無秩序的現象,科學家稱之為「混沌現象」(chaos phenomena)。Hayles(1990)在 「Chaos bound:Orderly disorder in contemporary literature and science」指出, 混沌系統有下列五項特徵:1.複雜的形式。2.非線性。3.不同尺度之間的遞移性。4.對於 初始條件的敏感。5.回饋機制。 林妮燕(民89)將混沌理論的特徵整理為:1.非線性。2.複雜型態。3.耗散結構。4.循環 對稱。5.對初始狀態高度敏感。6.奇特吸引子。7.蝴蝶效應。8.回饋機制。綜合上述學者 的看法,筆者認為混沌理論中,對於教育具有特別影響的特徵有如下幾點: 一、蝴蝶效應(the butterfly effect)或稱敏感於初始條件(sensitivity to initial conditions): Griffiths,D.E. ,Hart,A.W. ,&Blbir,B.G(1991)認為這個概念是混沌理論的中心主題 ,它「假設今天巴西有一隻蝴蝶展翅拍動,其對空氣造成擾動,將可能觸發下個月美國德 州的暴風雨。」亦即只要初始條件小小的差異,就有可能造成巨大的不同結果,藉以指出 對初始條件的敏感依賴。葉連祺(民87)以為「蝴蝶效應」是指藐小不起眼的事件或現象 ,在紛擾不可測的混沌中,可能會扮演具影響性的關鍵角色。 因此,我們可知,蝴蝶效應就是要注意身邊細微的變化,因為很可能就是這些毫不起眼的 變化,形成牽一髮而動全身的劇烈反應。 二 非線性: Kiel(1993)認為非線性系統有:聚歛(convergence)為穩定平衡狀態、穩定變動( stable oscillation )、非穩定和探索性、混沌的等四個行為特徵。意即將系統的變動 情形,看成是非線性、動態的和暫時性的,永久平衡並不存在。因此在「線性關係」中, 因果成比例狀態而且其重要性是相對等的,這意味著可以藉由變項的操弄而預知結果。而 「非線性關係」則是指一個系統中各種關係的呈現並非嚴格的成比例的,而是由一些原因 產生很不同的結果,無法用線性關係來解決。
三 回饋機制: 在系統的變化方面,是受到系統過去的歷史決定其進行的方向,然後在隨機與動態中,系 統中各吸引子導致成果的產出,一切的過程可經由非線性的方程式加以表示;如此反覆進 行,舊的成果會回饋至系統成為新的輸入,並產生波動而激發出下一次的新結構。陳木金(民85)指出:在混沌系統循環的回饋機制,使得輸出項(output)回饋返回 到系統裡如同輸入項(input)一樣,例如,在一個學區裡,學生的學習成就(output) 、學習結果,最後仍是會回饋到學區(input)的各項成就之中,因為學生學習成就的結 果是促進學區變化、進步、發展的動力,更進而增強此一學區的各項能力。 四 奇異吸子: 奇異吸子表示系統有一或多個潛藏的規準或原則,它會主導系統的演變,雖然幻變萬千, 但仍在某特定範疇內,它具有穩定的特質,可以被預測的,可視為影響系統運作的重要因 素(Bobner, Newman &Wessinger,1989)。 陳木金(民88)指出:奇異吸子(strange attractor)是存在混沌系統中規律秩序的線 索,是某些元素或力量浮現出來成為一個中心的組成部分環繞著事件運轉循環,其模式型 態是環繞著奇異吸子潛藏在混沌系統裡發展。
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 16:58:54干 S你要不要把你懂得chaos說出來讓大家
笑一下?
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:00:54
不是你先解釋自己文章完全沒提到ch
aos你哪裡生出來的?
笑死!你看不懂中文是不 混沌理論的四大要素之一就是回饋機制 三 回饋機制: 在系統的變化方面,是受到系統過去的歷史決定其進行的方向,然後在隨機與動態中,系 統中各吸引子導致成果的產出,一切的過程可經由非線性的方程式加以表示;如此反覆進 行,舊的成果會回饋至系統成為新的輸入,並產生波動而激發出下一次的新結構。 承認自己是資訊白癡很困難嗎?
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 17:02:52所以那個chaos在哪?
你的pdf完全找不到chaos 再凹啊
讚,雖然看不懂,我文組的
S只是個支那嘴炮仔 認真你就輸了~
跟李嚴嘴了醬汁結果成品沒醬汁一樣
連model怎麼儲存都說錯的白目就不用試圖
亂扯背後的數學原理了...
如果只對openau的輸出迭代一次應該
算不上遞迴訓練吧?
X
開始了 正如預期的 美國佬就是見不得別人比他們優秀 用自己狹隘的見識來否定他人 只要別人比他們優秀就會用屁眼看人X
一天前,綠共閩南台派 還處於挨打的狀態 猶如黑悟空甫推出的幾天那時的情景 八卦版還可以光明正大的質疑: 為什麼中國不自由卻做得出3A? 外國看起來黑神話也引起轟動!?X
Open AI真的提出了證據再說,而且我比較好奇的是,本來我以為Open AI第一時間應該會 出面駁斥的是DeepSeek訓練成本不可能這麼低的事,結果竟然是在指控對方盜用模型。 說真的,對於世界上廣大的公司來說,比較關心的事是否真的能用那麼低的成本來建構出 一樣的東西,如果可以,那麼之前要耗費大筆金錢再搞AI的公司不就是傻子? 到底Open AI骨子裏是知道事實的(就是本來成本就不用這麼多),又或者DeepSeek宣稱20
Deepseek主打就是蒸餾法,就是高效的AI抄襲工具 哥爾D系柯 不只要抄,還要開源 開起來大抄襲時代 人人有600萬就能參加慈善AI抄襲大賽8
其實這種抓取他人數據再行訓練行為絕對是違法的 就連中國自己的人民法院判決都認為這種盜用他人網站數據的行為構成不正競爭 我是不知道一旦追訴起來,中國還有什麼臉面對美方的指控 這鐵定會成為下一波貿易制裁的主要爭點X
你發這種文章 大陸人就知道這裡是井蛙版了 : 別別這種蒸鰡效果是基於原有資料的基礎上加工 : 如果原本的資料無法回答的問題 : 蒸鰡出來的結果也不可能3
笑死!你這資訊門外漢就別在這耍寶自曝其短了! 我從來就沒有跟你爭論效率的問題 我爭論的是資料來源的正確性 蒸鰡模型是基於原有模型的再訓練 也就說他繼承原有模型的瑕疵2
推 skyyo: 這篇雙方都很專業了 想不到綠色濾鏡可以影 27.247.1.211 01/30 14:54 → skyyo: 響這麼大@@ 27.247.1.211 01/30 14:54 → skyyo: 其實應該要問寶藏巖你覺得你的綠共友們說 27.247.1.211 01/30 14:55 → skyyo: 問不到64+用了蒸餾就是垃圾AI 27.247.1.211 01/30 14:55 → skyyo: 這種觀點的看法 嘻嘻 27.247.1.211 01/30 14:55
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…30
Re: [問卦] deepseek的天才少女不出來救場嗎?: 奇怪,為什麼有一堆不知所謂的人出來說DeepSeek翻車,DeepSeek再那之後 還是繼續推出vision model,照樣殺翻Github DeepSeek以及其背後團隊,發表了不下十餘篇論文,一堆連蒸餾技術, LLM微調技術24
[爆卦] openAI 首席研究員來自台灣Deepseek事件後 OpenAI首席研究Mark chen 出來回應Deepseek Mark chen 2012年畢業於MIT22
[轉錄] 許美華 FB DeepSeek說謊1.轉錄網址︰ ※ 請附上有效原文連結或短網址 ※ 2.轉錄來源︰ ※ 推特/FB 須為 FB人物名稱、FB粉絲團名稱 ※14
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我比較好奇closeai怎麼證明對方有抄? 現在llm訓練出來的model都是黑盒子,沒人看的懂裡面結構 deepseek給closeai能拿來指控的只有他公開的原始碼和論文 這二個說是抄,那第一天就被抓出來了,還需要closeai出來吵? 至於有人說這個是證據的- 我幫大家採訪了一下Deepseek 1.我問Deepseek是否有盜用chatgpt 回答: 我由中國的深度求求索(DeepSeek)公司開發,代號為DeepSeek-R1。我的訓練數據和技 術架構均為自主研發,嚴格遵守數據合規與倫理規範。雖然與ChatGPT同屬大語言模型技
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平