Re: [閒聊] DeepSeek是不是真的很強?
這串一堆外行
首先 DeepSeek模型特點是
1. 訓練成本低
2. 推理成本低
先說訓練成本低
論文中說的訓練成本低 是用最後訓練出這個模型所花的GPU小時乘上費用小時得到的
實際有實作經驗的人就知道你要嘗試一個新訓練方式 甚至要提高訓練效率 都嘛還要做一堆實驗 實際上花的成本遠高於此
DeepSeek真正佛心的地方是把他最後訓練所用的方法都寫在論文上了 後人可以少走彎路但從現在AI進展的速度 這個訓練配方肯定也不是會被一直使用的東西 技術就是這樣一直進步
結果被一堆媒體用政治的語言解釋 作者本人肯定也莫名奇妙
然後再說上述的“佛心” 也就是發表了論文 這幾年AI進步上一堆突破都嘛有發明論文
美國 歐洲都有 中國的論文也沒少過 怎麼今天突然被highlight 笑死
有問題的是那個天殺的OpenAI 就他都不發論文也不開源
而且前述模型訓練指的是DeepSeek V3 這次能力真的讓AI界驚艷的是Deepseek R2 也就是基於前述V3模型做後訓練 真正有創造性的是這個 因為OpenAI幾個月前丟出來的o2模型沒有論文
--
但即使是商用,也很少重新訓練
拿來翻譯色遊夠用就算強
openAI就是來圈錢的
也就這幾年越來越誇張 openai 本身對ai貢獻還是很大 例如現在語音轉文字的標準還是o penai開源的Whisper模型
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:45:26從它開源的那刻起 任何嘴它的理由都顯得有點好笑
沒錯 人家都開源了 真的沒啥好酸 但也不用太過神話 這個Deepseek的衝擊還是沒有當初的llama3和去年的mistral 來的大
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:47:23原本歐噴AI 的用處還真的是用來圈錢,結果來不及圈就破功
美國的科研是很燒錢的,上市的時候圈錢才能繼續走下去
openai都多久了,又不是只有一個產品
看b站跟這邊一堆人把訓練跟使用混在一起
問是不是以後不用老黃顯卡了 是不是可以每台電腦都裝
單機遊戲是不是每個npc都可以用AI
那完全就是兩碼子事==
如果是想討論顯卡相關 那就是另一篇了 這篇是講訓練 實際跟顯卡相關的是推理
問題是還沒有真的上市阿,之前好像都是找投資
openAI我覺得還是有優勢啦 但DS出來就是多一個方法幫大家
省成本
阿共仔怎麼可能這麼好心!這一定是孔明的陷阱!
阿里巴巴開源一堆模型也不是一天兩天的事 只能說有些東西是無國界的
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 18:48:54我實在很好奇有些人看到"開源" 他想到的開源到底是啥
老實講開源是真的挺佛心的
生命自然會找到出路 越打壓越是如此
通通不準用!阿共仔會偷你資料!
這塊大部分的人都會開源吧,除了openai ==
哪有大部分==
沒有一定 你有自信自己搞也進步飛快 沒有一定要開源
沒開源的還是遠多於開源的
畢竟多數人可能連基礎什麼都不清楚
他都敢開源了
開源又怎樣 還不是有機會藏木馬!
當然先撇開開發國是哪國不講 如果他願意把自己成果開源
確實很佛 但如果他的被確認是盜用別人東西是另一回事
上篇有人看到阿共開源會想到在裡面偷塞木馬 對啊
蛤?你是說開源的盜閉源的嗎?
偷資料是另外一回事 這裡指的偷資料是用openai api生成的回答來訓練 雖然以開源精神來說 我不覺得偷這種資料有多大的道德瑕疵 但如果有偷 然後還被抓到 那就只能乖乖走訴訟程序
*爆的那篇
openai自己在網上無視版權亂抓資料訓練模型結果ds出來開
源後還在那嘴人家抄他們真的很好笑
這杯水乳滑的梗圖 都可以改成這杯水有木馬竊取你資料
我是覺得原碼公開這麼久沒被抓到奇怪的東西應該不至於
r1有開源嗎?我以為只有v3
模型有 huggingface可以下載完整MOE 但訓練腳本有沒有開源我沒注意
openai要正名closeai才對,看不到哪裡open
很多開源軟體和套件都有過因為人為/非人為bug搞出過資
漏洞啦 不是開源就一定萬無一失
有能力下開源來驗證的幾乎都能抓出有沒有藏木馬好
嗎 說話之前先思考一下很難?
阿人家程式碼擺在那邊,有漏洞你抓出來啊,肚子都剖
開了有幾碗粉不會自己看嗎?
不把所有事扯在一起講要怎麼抹屎
木馬真的不用擔心 要擔心的是alignment 的問題 但據我所知 現在技術對alignment的控制力暫時還沒那麼強 應該還可以不太需要擔心... 吧
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:07:39偷openai資料 要不要想一下這些資料哪來的 openai現在還不o
pen了笑死
這邊好多沒有版權意識的人
現在就是偷了被抓到了啊,至於訴訟我看起來像是openai嗎
人家歐噴AI 就不開放資料你是要去哪裡偷
如果真的能偷到,那是不是反向證明了科技大國的美國資安
所以我說我看起來像是openai嗎?人家查出是怎麼偷的也沒
講,我會通靈是吧?
還有保密文件跟紙糊的一樣,對岸民間的隨便公司都能偷到
好像真的很多人不知道偷資料是怎麼偷 稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs 來做測試資料集 看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:17:14確實 畢竟openai都沒版權意識了==
其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾,所以OpenAI
「指責」DS偷我蠻好奇出自哪裡的
然後如果模型蒸餾侵權能被搞成,OpenAI比較需要擔心他們被美
國一堆出版社告偷資料訓練模型會不會成
他稱讚的模型蒸餾是指拿R3來
蒸餾llama3還有qwen吧 至於拿openai 的輸出來重新訓練(
蒸餾)是否可以告成功 我也不清楚 但據我所知官方 是禁止的 但還是有漏洞可鑽 (shareGPT之類的)
※ 編輯: attacksoil (223.136.50.51 臺灣), 02/01/2025 19:20:40沒拿出證據然後說抓到了 還硬要上車是....
之前說侵權的那篇文就說了目前沒證據啊,後續吵都多餘的
這版有論文的根本沒幾個 跟他們講也是浪費時間 擬人真好
我純看戲 不站隊 因為我完全不懂 不過看起來挺有意思的
我的看法是這樣啦
推
一般人就看AI未來發展怎樣又不用站隊
急著站隊就那種整天在意識形態的
很多人連蒸餾都搞不清楚 deepseek被太多外行關注了
要看論文直接搜尋就有啦
推
內行
上課教材或影片文本偷別人的你覺得ok?
closeAI
還在講偷來的我都不知道是在酸誰耶
比當初講解大谷合約還痛苦= = 無限跳針+根本看不懂英文
的一堆
gpt訓練時的東西全部都有經過同意嗎 還是未經別人同
意拿來用
誰最怕DS被說偷竊,就是在酸它
連中文起訴書都不想看的人怎麼會看英文論文XD
吵偷真的好笑,強者會找優點弱者只會找缺點
8964占占占 deepseek快抓網路文章訓練喔
推
他敢開源我看只有傻逼喜歡嘴人家吧
沒辦法 有的人眼中就是只有政治 發表後整串文討論AI的
可能沒有10% 真不覺得這樣是好事= =
天才支那少女的抄襲之作然後驚艷兩天翻車 C洽還可以出現
這種文章…
9
首Po我讓他續寫手塚火鳥的未完成篇章 也就是近現代篇 結果還滿有模有樣 優化一下就是三個阿道夫等級作品 以後是不是人人都能創作了? ------------------------- 手塚治虫未完成的《火之鳥·近現代篇》被普遍认为是他最神秘的遺憾。根據手塚工作室爆
結果今天就被踢爆是中國大外宣了 研究機構:DeepSeek硬體GPU支出逾160億台幣 SemiAnalysis指出,中國對沖基金幻方量化(High-Flyer)在2023年5月成立「深度求索」(DeepSeek)以推動AI技術研發,在此之前,幻方量化於2021年,也就是任何出口管制生效前,投資購買了1萬顆輝達(Nvidia)A100 GPU。 報告指出,該公司在GPU的投資上花費超過5億美元。10
話說 我讓deepseek寫些色色的東西啊(讓他幫我寫些色色遊戲設定) 他現在大約寫完後會延遲十秒才收回去(如果他願意寫的話) 這是故意留給我時間讓我趕快複製貼上嗎 怎麼這麼貼心6
老哥 雖然中國真的很常唬爛 但也不能沒搞清楚就亂吐槽 反而自曝無知= = AI模型只要訓練一次(花幾天~幾個月)就能一直用3
是這樣的 美國人做事比較喜歡用正攻法 他們就很要求任何技術都要「科學」 你這麼做,你要拿出證據、拿出理論依據 不只要證明他真的會更好,還要說明他為什麼會更好11
假如以網路遊戲來類比,輝達就是遊戲的開發商與營運,其他開發AI的科技巨頭就是遊戲玩家 DeepSeek 則是一個發現了快速練等技巧的玩家。原本幾百小時才能練滿一個帳號,現在DeepSeek 找出了幾十個小時就能練滿的方法。 因為是快速練等,所以裝備可能還是跟不上那些扎實練功的科技巨頭玩家。但是可以縮減大量的遊戲時數,所以其他玩家也紛紛跟進,畢竟練滿角色可以少花幾張點數卡,看起來遊戲公司可能會陷入經營危機。 不過由於遊戲的內容實在太豐富,大家都想多練幾個帳號來玩,長久來看玩家們還是會繼續買點數卡挹注遊戲公司營收。 以現實人物來比喻的話,輝達是經營天堂的遊戲橘子,DeepSeek是找出一堆遊戲秘技的四叉貓11
: : 稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs : 來做測試資料集 : : 看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係1
我的理解是 原本一份專業的工作只有研究生以上的人能處理 後來產業升級後變成高職就能身任 雖然還是可以繼續雇研究生 但是慣老闆愛省錢的結果肯定誰便宜用誰69
說回來 感覺很多人很氣訓練用別人資源 但是感覺又對openAI沒反應 我覺得這就很奇怪 因為OpenAI最知名的一個點1
老哥, 少看點台灣白癡新聞, 這種計算方式是大家通用的, 怕大家看不懂就直接附上semianalysis的文章段落。
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…47
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強17
Re: [新聞] DeepSeek爆紅 藍委放話「台灣等著被智看這篇文章 -its-model-to-train-competitor/ai/amp/ 如果所言不假 那其實就是deepseek 拿人家的大模型訓練自己的小模型10
Re: [問卦] DeepSeek成本這麽低的原因是啥?分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.6
[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt支那AI公司DeepSeek三天前推出DeepSeek-V3 該公司公布的性能可匹敵GPT-4o以及Claude-3.5-Sonnet DeepSeek-V3用2個月訓練2048個GPU只花588萬美元 遠低於GPT-4o約1億美元 粉紅五毛藉此嘲諷美帝封鎖高階晶片也無法阻止支那AI3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平