Re: [黑特] 有一說一拿政治歷史問題去問ai的都是87?

sxy67230 發表於 2025/1/28 下午3:34:14

看板HatePolitics標題Re: [黑特] 有一說一拿政治歷史問題去問ai的都是87?作者

(charlesgg)時間Jan 28 15:34:14 2025推噓 X 推:2 噓:3 →:21

※ 引述《ivorysoap》之銘言：
: 有一說一拿政治歷史問題去問ai的都是87?
: 這幾天看到最多說ds ai沒用的說法之一就是
: 它不回答政治問題連歷史問題也答錯或不答
: 那就好笑了

這邊應該要說的比較清楚的是模型的背後其實就是統計建模的概念，不管是LLM或vLLM都是。像LLM越是沒有信心的知識在取樣下一個Token時越難取樣出事實，所以模型其實是很好控制的，越是複雜或是有爭議的事件模型除非人工強化不然他就越容易產生幻覺（Hallucination)。所以拿某些歷史尤其是冷門的歷史事件或政治人物他越不容易回答正確。

不過模型也需要為人服務，所以當初不管OpenAI或是DeepSeek 再訓練時才會引入強化學習，透過關鍵的獎勵模型大量調整模型變成盡可能不觸犯當地政策法律以及讓他變得有用無害，像chatGPT也被揭露針對特定敏感人物也會盡可能拒絕回答，還有種族問題也會配合美國政策避免觸及。同理，DeepSeek 也是。

不過DeepSeek 有一個優點就是他不像OpenAI完全閉源而是選擇開源模型，既然開源那你要微調成你喜歡
的樣子倒是沒什麼問題，開源的llama也是有辦法微調成中國政府喜歡的形狀。

不過DeepSeek 回歸技術面，我認為他優秀的是他是首個用COT的稀疏模型，雖然他全部的參數有到6710億但因為稀疏MoE架構所以激活狀態只用到370億，這個在Mistral等開源模型已經證實有用了，剩下還有MLA跟MTP等可以加速跟壓縮模型的方法。這個在技術上確實都證明可以減少GPU卡的消耗，所以什麼亂七八糟媒體說得用到很多GPU可以確定是唬爛的，激活狀態根本連8張卡都不用。即使真的DS公司大量收購五萬張好了，但訓練跟推理根本用不到那麼多就是了。

然後R1比較優秀的是用純強化學習免去OpenAI當時訓練o1還要經過大量人工標註（主要是因為PPO的Reward model需要用到PRM等過程獎勵模型），轉而使用規則加冷啟動方式分階段式提升避免模型跑偏，這個算是蠻關鍵的技術，領域內也是覺得是很優秀的工作。

我覺得不管是哪邊有色眼鏡都太多了，技術人員還是回歸技術面談技術，畢竟人生活成只有仇恨跟政治的人蠻可悲的。

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.81.196 (臺灣)

※ 文章網址:

https://www.ptt.cc/HatePolitics/E.uco3YrbP5iV4

※ 編輯: sxy67230 (1.162.81.196 臺灣), 01/28/2025 15:35:31

噓

Gedu 01/28 15:35你罵到我了

噓

ivorysoap 01/28 15:39難得在政黑版也能看到專業文

→