Re: [閒聊] Deepseek的角色扮演
※ 引述 《e04su3no》 之銘言:
: → pobby2266: 昨天無聊也是讓他模擬魯迅和尼采對話 01/28 03:19: 推 pHyrz: 可以串連兩邊讓他們吵架ㄇ 01/28 03:22: 推 gm79227922: 可以瑟瑟嗎 01/28 05:40
Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。
目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1數學模型,主打純用RL左右互搏不需要像OpenAI的PPO一樣需要先經過大量監督微調(就是人類構造數據)的步驟就可以讓模型自主學會數學分解思考。
然後比較搞笑的是本來自稱自己開源的OpenAI現在早就把自己的模型全部close,然後首個開源深度思考模型竟然發生在最封閉的左岸。
--
※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.8.79 (臺灣)
※ PTT 網址
27
[問卦] DeepSeek剛剛發布新款開源AI模型圖像生成模型Janus-Pro 在 GenEval 和 DPG-Bench 基準測試中打敗 OpenAI 的 DALL-E 3 和 Stable Diffusion? 請問中國人不過年嗎? 半夜放新模型是不是想炒美股?15
[爆卦] 全球最強中國 AI 模型被爆是套用 Meta 的李開復 所創立零一萬物 推出全球強中國 AI 模型 包括 Yi-6B 和 Yi-34B 兩個版本 取得了多項 SOTA 國際最佳性能指標認可 成為全球開源大模型的雙料冠軍 擊敗了 LLaMA2 和 Falcon 現在被爆是套用 Meta 的 LLaMa 模型架構17
[討論] 手機跑小型ChatGPT ~ LLaMA大型語言模型祖克伯的Meta公司今年2月公開的「LLaMA」是體積比較小的大型語言模型(LLM)。 LLaMA依照訓練參數數量分為7B、13B、30B、65B。訓練數量雖比不上OpenAI的ChatGPT,但 是硬體需求大大降低,是個人電腦甚至旗艦手機都跑得動的程度。 根據他們paper的說法,LLaMA 13B的模型性能比GPT-3模型要好,可以作到基本對答。 一些LLaMA可以達成的任務9
[問卦] 要收費的OpenAI是不是完蛋了感覺美國的這些AI公司都講好了 開源的模型不能超越閉源的 很明顯這些開源的大公司有在禮讓 不能把別人的飯碗全部端走 讓OpenAI這個閉源的可以繼續撈8
[問卦] 如何利用deepseek開源模型 建構台灣AI聽說 deepseek-R1 是目前開源AI模型第一名 我有一個大膽的想法 既然這個模型是開源的 我們可以使用這個模型來建構台灣的 openAI 擺脫對美國AI大廠的依賴 是不是很聰明啊?6
Re: [新聞] 陸企DeepSeek接連推出大模型 陸媒:引發南無阿彌陀佛 敝島上所有做AI的專家學者全部綁在一塊不知道有沒有這家小公司的成就 還不就還好之前有組刻薄的llama救了多少人的論文 讓多少教授只要在那邊跑一跑人家的模型就可以坐穩那個學者的名份 現在又有一個deepseek開源可以伸手直接拿來用6
[情報] 微軟, META合作 Llama2上 Azure1. 標題: 微軟與META擴大他們的AI合作關係,讓Llama 2上Azure以及 windows 2. 來源: 微軟公司 3. 網址:X
Re: [新聞] DeepSeek爆紅引熱議 傳偷用5萬顆輝達H10"世界一開源 中國就領先" 這是一句最近流傳的諺語~~~ 之前中國嘴砲7奈米量產 結果一開蓋 發現是TSMC like的製程 多重曝光 現在要驗證 deepseek是否真的是便宜成本就可以訓練好 只要請deepseek 公佈模型架構 不要提供完整訓練好的模型2
Re: [問卦] 有deepseek越強其實對台灣是大利多的卦?deepseek橫空出世 對台灣當然是大利多 台灣有很多號稱做AI的教授只會拿別人的模型來訓練 meta的llama釋出之前 只能在網路上找些更爛的開源model做出只會講幹話的東西1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
77
[問題] 請推薦我機器人/鋼彈動畫72
[閒聊] 你買過最實用的ACG周邊71
[水母] 水母蠻好看的啊?話說這部484女同番57
[母雞] 幫勘誤,我這樣的理解是正確的嗎?☺48
[母雞] #7 春日影之所以需要唱崩的一些分析(文長)41
[母雞] 目前為止的立希38
[閒聊] 現實中聽到網路暱稱很尬嗎?70
[閒聊] 老曹好色又消費國家為何還這麼多人追隨?33
[閒聊] 哪部動漫第一集像巨人這麼爆的??32
[閒聊] 宿儺在一拳什麼災害等級的?27
[閒聊] 孤獨搖滾!巡禮之水壩紀行 長野味噌川水壩25
[原神] 5.5新角色立繪 瓦雷莎22
[馬娘] 訓練師面對這情況 只能選擇逃跑了吧21
[母雞] 海鈴:妳們重修舊好了呢20
[閒聊] 還有像暴君這樣成功的追殺系敵人嗎?19
[母雞] 一些第七話相關心得跟未來劇情預測46
[Vtub] 不能說很像...新人VTuber「 猫宮るな」形象撞臉潤羽露西婭73
[25冬] 我獨自升級跟香開推薦看哪個?19
[母雞] 新假說:第七集是睦的夢境17
[百合] 百合漫畫是不是藥丸64
[問題] 為什麼魔物獵人不翻譯魔物的真名13
[母雞] 破防過後幾天的簡短紀錄15
[閒聊] 火鳳燎原 615-銅雀臺上57
[母雞] 第七話的兩個爭議點28
[閒聊] GTA6可能於2026年初登陸PC50
[母雞] 印度會怎麼翻拍母雞卡17
[閒聊] 六花勇者會有第二季嗎?13
Re: [水母] 水母蠻好看的啊?話說這部484女同番15
[閒聊] 香港人有多愛煲湯?22
[閒聊] Bushiroad 本日股價大漲17.58%!