Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷
前文恕刪
: 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參: 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100: 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。
這比法很不公平
12/6 Meta 免費放出蒸餾過的 llama 3.3 70B
很多項目效能接近llama 3.1 405B
12/27 Deepseek V3 公開
看起來 deepseek V3 快速導入了新開源模型
變強是因為Meta幫他訓練+蒸餾大模型
中文強是因為蒸餾了阿里巴巴Qwen2.5模型
訓練量少只是因為不用訓練大模型
隨便搜一下
專家系統 MoE 1994年就有論文(MIT)
蒸餾模型 2015年的論文(Google)
專家系統 + 蒸餾模型2022年有論文(Microsoft)
都不是什麼新東西
新聞中跟gpt-4o和llama 3.1 405B比只是行銷手段
如果跟llama 3.3 70B比 兩者效能相當
預測花費約少30%
deepseek v3就只是優化/特化的小改版
資料來源:
DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B
https://tinyurl.com/46b2anf7
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
※ PTT 網址
推
我比較相信美國ai大神的說法
→
相信是假的 現在可以all in NV @n@a
→
中國立即超英趕美,打死我都不信。
爆
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預teamblind 匿名的可能有人不信 與其聽匿名、鄉民互吹/貶 不如來聽聽 Meta 現任 CEO Mark Zuckerberg 本人對於 Deepseek AI 模型的看法 2025/01/11 Mark Zuckerberg 接受美國知名喜劇演員 Joe Rogan 專訪 截至今日有 840 萬人看過這個影片55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預15
[爆卦] 全球最強中國 AI 模型被爆是套用 Meta 的李開復 所創立零一萬物 推出全球強中國 AI 模型 包括 Yi-6B 和 Yi-34B 兩個版本 取得了多項 SOTA 國際最佳性能指標認可 成為全球開源大模型的雙料冠軍 擊敗了 LLaMA2 和 Falcon 現在被爆是套用 Meta 的 LLaMa 模型架構17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務6
[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt支那AI公司DeepSeek三天前推出DeepSeek-V3 該公司公布的性能可匹敵GPT-4o以及Claude-3.5-Sonnet DeepSeek-V3用2個月訓練2048個GPU只花588萬美元 遠低於GPT-4o約1億美元 粉紅五毛藉此嘲諷美帝封鎖高階晶片也無法阻止支那AI6
Re: [新聞] 陸企DeepSeek接連推出大模型 陸媒:引發南無阿彌陀佛 敝島上所有做AI的專家學者全部綁在一塊不知道有沒有這家小公司的成就 還不就還好之前有組刻薄的llama救了多少人的論文 讓多少教授只要在那邊跑一跑人家的模型就可以坐穩那個學者的名份 現在又有一個deepseek開源可以伸手直接拿來用6
[情報] 微軟, META合作 Llama2上 Azure1. 標題: 微軟與META擴大他們的AI合作關係,讓Llama 2上Azure以及 windows 2. 來源: 微軟公司 3. 網址:3
Re: [請益] Deepseek v3 對台積電有影響嗎的確會讓人好奇DeepSeek-V3的訓練方式, 但成本降低如此之多,另外一個思考點,是不是除了科技巨頭外, 更多公司願意投入資本支出來建立自己的模型? 而且隨著技術發展,模型建立的成本一定會快速下降。 DeepSeek-V3比較的 Claude.ai/Qwen2.5/LLaMA3.12
[問卦] Llama 是不是失敗的模型啊剛看到 Llama3.1 405B 宣稱跟GPT-4o 同等級 問題Llama尬到405B 搞不好GPT-4o 80B而已(我猜的啦感覺就輕很多 很像黃種人練籃球10年跟黑人訓練一個月差不多強的感覺2
Re: [問卦] 中國Deepseek是不是真的震撼矽谷?南無阿彌陀佛 這幾天有幾件事同時擺在一起看就很好笑 1.某AI外包機構獨董號稱台灣AI領頭羊但都在做套皮模型,跑去演講說 台灣AI no.1,在那邊講甚麼韌性什麼可信任有的沒的廢話 2.然後領頭羊還在吹牛的當下差不多時間deepseek就已經在網路上掀起了大波瀾了
96
[標的] 聯發科 空74
[情報] 3481群創 股東會紀念品:白米一公斤38
[請益] 台灣貿易順差超大 但為何台幣貶成這樣?41
[心得] 資料中心投資方向17
[情報] 3189景碩 113EPS 0.11(Q4 -0.55) 股利118
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 418
[情報] 2942京站 獨董彭振聲 因個人生涯規劃辭任73
[情報] 0217 上市外資買賣超排行19
Re: [新聞] 營收衰退10.72% 台旅館業憂倒閉潮12
Re: [新聞] 首檔 ETF 分割來了!0050將重返發行價 4爆
[標的] 大盤 空26
Re: [標的] TYO 7803 武士道無腦多X
[標的] 台指期 多8
[情報] 00946 114/03/06 預估除息0.025元47
[心得] 哲哲: 以後滿街自駕車 台股今年260007
[心得] 券商app年度回顧21
Re: [新聞] 輝達GB200出貨量遭爆砍3成 一掛AI伺服器4
[情報] 8028 昇陽半導體1月自結0.431X
Re: [新聞] 遭聯電切割「已非榮譽董事長」曹興誠回應8
Re: [新聞] 三大國營事業去年虧損 水電油價都要檢討4
Re: [請益] 戰爭時的資產安排56
[情報] 114年02月17日 三大法人買賣金額統計表16
Re: [新聞] DeepSeek推動1.3兆美元回流中國股市 大18
[情報] 0217 上市投信買賣超排行20
Re: [請益] 台積電被勒索救Intel 沒有涉嫌背信罪喔6
Re: [新聞] 2024年GDP飆升至4.3% 重返亞洲四小龍之首X
Re: [新聞] 環狀線災損雙北求償逾19億 中工:鑑定單位黑