[閒聊] AI玩遊戲學習非最佳解會怎樣

RLAPH 發表於 2025/2/24 下午2:45:43

看板C_Chat標題[閒聊] AI玩遊戲學習非最佳解會怎樣作者

RLAPH

(川尻浩作)時間Feb 24 14:45:43 2025推噓27 推:27 噓:0 →:21

PTT推薦

嗯吶

好奇問一下啊

大家都知道LOL這種遊戲

如果給AI練習走位大概會比非可還強

而AI一向是朝最佳解去學習的

但就好奇啊

如果給AI餵像是羅傑或是大開的操作

逼迫AI去學習非最佳解

會變什麼樣啊？

有人知道咪？

--
蘿莉銘
身不在高，米四就行，胸不在大，有型則靈，斯是蘿莉，為吾是侵。
洋裝貓耳朵，小嘴大眼睛。短髮很俏麗，長髮也飄逸。可以給糖果，玩親親。
無八卦之亂耳，無血拼之勞行。學校游泳室，公園小涼亭。吾自云：能萌就行

※ PTT留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.53.40.2 (臺灣)

※ PTT 網址

推

Shichimiya02/24 14:47死歌不會開大因為不知道唱哪

推

ZielC02/24 14:47input trash output trash

推

qd659002/24 14:48傑西沒大

推

nahsnib02/24 14:48不如讓他學習怎麼跟聊天時室對線

推

ss890123402/24 14:48傑西沒大

推

GTOyoko556602/24 14:48AI學走位的巔峰不就腳本外掛嗎？==

推

arrenwu02/24 14:49腳本有需要用深度學習嗎？

推

a4316491002/24 14:49聊天室老媽祖墳會爆開

→

ZielC02/24 14:49不是說髒話，但以最佳化的觀點去看就是上面的結論

推

GTOyoko556602/24 14:50腳本還會跟人搶滑鼠，AI親自上我都不敢想

推

lsd2596802/24 14:50你模型還是會算loss啊所以還是會收斂

推

serding02/24 14:52不如請AI玩動漫歌二選一

推

kirimaru7302/24 14:53AlphaGO第一版就是這樣，餵食了大量人類棋譜

→

kirimaru7302/24 14:53後來的結論就是人類圍棋什麼弱雞，不餵食的版本更強

→

kirimaru7302/24 14:53不過弱雞版AlphaGO還是能夠4：1李世石

推

chctonagisa02/24 14:53操作爛的一次偏左一次偏右平均下來還是一樣

推

ZielC02/24 14:53然後完全最佳化，同時閃避+維持輸出範圍的情況，跟腳本應

→

ZielC02/24 14:53該要是相同的行動，只是原理變成你學習抓到那一frame輸出

→

ZielC02/24 14:53移動指令要怎麼下而已。腳本比較像是直接抓對面丟技能的事

→

ZielC02/24 14:53件

→

kirimaru7302/24 14:54AlphaGO零號(不看人類棋譜)則在網路上匿名痛電所有職

→

kirimaru7302/24 14:54業棋手，60：0

推

zack86702/24 14:55像初版學人類alphago一樣強度比後來自己練的版本低吧？

→

kirimaru7302/24 14:57人類圍棋知識中有少數確實是弱雞，一些小時候你下了

→

kirimaru7302/24 14:57會被老師釘在牆上的「臭棋」，現在可以換老師被釘在

→

kirimaru7302/24 14:57牆上

→

kirimaru7302/24 14:57不過大多數人類結論還是和AI一致，也沒有多丟臉

推

GTOyoko556602/24 14:57用格鬥來說，電腦比人類笨的地方在於能騙招，但是這

→

GTOyoko556602/24 14:57種電腦都是事先寫好了，所以能騙一次就是騙無數次，

→

GTOyoko556602/24 14:57如果電腦本身會學習並改良，那我想不到人類要怎麼贏

推

GTOyoko556602/24 14:59你跳就623，你投就秒拆投，你做的任何動作電腦都能

→

GTOyoko556602/24 14:59反應，做的都是錯的，想想就有夠牢

推

zealotjacky02/24 15:03所以有的訓練會把AI的反應時間限制成人類等級

→

zealotjacky02/24 15:03就是避免AI秒讀招然後拆解但實際上人類根本做不到

推

kuninaka02/24 15:04早有了

推

milkool02/24 15:07阿法狗：學你們人類棋譜不如自我學習

→

milkool02/24 15:07人類喂AI現有招式不會讓AI進化

推

ccpz02/24 15:07local optimal or global optimal

推

inte629l02/24 15:08感覺就是對策略空間限制搜索範圍之類的?

→

inte629l02/24 15:08就像對一個獎勵函數加一個限制約束項

推

twosheep060302/24 15:13全看你怎麼給獎勵函數

推

twosheep060302/24 15:16https://b23.tv/wcGv3pl 可以看看這篇是怎麼訓練的

推

CYHyen02/24 15:26反正AI現在遊戲的結論就是全面爆殺人類，什麼大局觀、不

→

CYHyen02/24 15:26完全資訊、細部操作。人類都是弱雞

→

kuninaka02/24 15:40至少AI還沒辦法自己做遊戲出來

推

devan3578302/24 16:11星海2無限制AI好像真的會噴垃圾話

推

kluele58502/24 16:14可能還是會很強就像初代alphago就是餵了很多人類棋譜

→

kluele58502/24 16:14事實證明沒喂讓他自己學比較強

其他人也閱讀了

PTT 熱門相關