PTT推薦

[閒聊] 5萬小時訓練AI玩寶可夢紅版 走不出月見山

看板C_Chat標題[閒聊] 5萬小時訓練AI玩寶可夢紅版 走不出月見山作者
lolic
(白蝙蝠巴比特)
時間推噓61 推:61 噓:0 →:33

https://game.udn.com/game/story/122089/7526108

在經歷長達 5 萬小時的訓練與學習後,

一位工程師成功讓一套 AI 模組學會如何遊玩《寶可夢:紅版》,

創造出能夠自行探索遊戲,組成寶可夢隊伍...。

...

由於機器演算法在本質上並不在乎「全破」一款遊戲,

因此 Whidden 為 AI 演算法設計一套在完成特定目標時能夠獲得獎勵的系統。

為了鼓勵 AI 在《寶可夢:紅版》中進行探索,

只要能夠在地圖上看到一些之前沒有看過的東西,就能夠獲得獎勵點數。

最終 AI 順利從真心鎮出發,穿過常盤森林,來到深灰市挑戰第一道館。

在那之前,AI 還需要更加完善的獎懲系統。

在學會看到新事物能夠獲得獎勵後,雖然 AI 會開始不斷向前邁進,

但完全不在乎收服寶可夢或進行對戰,而是在遇到野生寶可夢時立刻逃走。


因此,Whidden 為獎勵系統加入更多內容,

依照 AI 寶可夢隊伍的等級總和給予獎勵,讓它開始有動力去練等和捕捉寶可夢。

只不過在某一次的演算中,AI 走進寶可夢中心時意外開啟 PC,並在其中存放幾隻寶可夢。

由於 AI 獲得的獎勵點數是依照隊伍等級總和而定,這個行為導致 AI 獲得的分數瞬間驟降。

為了避免重蹈覆轍,AI 在那之後的所有演算中都選擇避開寶可夢中心,

完全不敢進去為寶可夢補血,這讓 Whidden 不得不再次插手調整。

這套 AI 演算法最基本的運作方式,其實就是隨機在《寶可夢:紅版》中走動與遊戲進行互動,

直到發現能夠以最有效率的方式獲得最多獎勵的路徑,並將經驗保留到下一次的演算中。

在挑戰的過程中,AI 都只會使用最基本的攻擊招式撞擊來進行對戰,

直到該招式的 PP 用完後才會使用其他選擇。

某次演算中,AI 終於發現傑泥龜的泡沫攻擊能夠對小剛的寶可夢造成大量的傷害,

最終順利擊敗這位道館館主。


即使 AI 在對於遊戲的理解與邏輯上依然比不上人類,但這場實驗發掘了一些更加深層的細節。

根據 Whidden 的發現,

AI 在經歷一段時間的演算後就開始固定以看似不尋常的路徑從真心鎮出發,直到遇到第一隻野生寶可夢。

然而,這一系列的操作其實能夠保證 AI 能夠一球抓到遇見第一隻寶可夢。


也就是說,AI 發現一個 Speedrun 玩家可能要花上好幾年的時間研究才有機會注意到的系統漏洞。

這套 AI 演算法在成功突破第一道館時基本上已經達成了 Whidden 最初設定的目標,

但 Whidden 決定要讓 AI 的《寶可夢:紅版》冒險繼續下去,

看看目前的獎勵機制到底能讓它走多遠。

可惜的是,第一和第二道館之間的月見山對於看到新事物就能加分的 AI 來說

實在是太過於容易分心,


因此一直到 Whidden 決定讓實驗告一段落前都無法順利抵達華藍市。

除此之外,AI 似乎非常喜歡從鯉魚王大叔手中購買鯉魚王,

因為這樣的行為能夠讓 AI 寶可夢隊伍的等級總和立刻多出五等,


因此到實驗結束前,AI 在其中 1 萬次的演算中都跑去買了鯉魚王。

另外值得注意的是,AI 有一次將抓來的小拉達命名為了「AI」,讓人細思極恐。

https://youtu.be/DcYLT37ImBY?si=Yc6mnic1FdBh3zw9

-----

1. 只要能夠在地圖上看到新東西,就能夠獲得獎勵點數

--> ai只會拼命往前衝,完全不打怪不練等

2. 依照 AI 寶可夢隊伍的等級總和給予獎勵

--> 不敢進寶可夢中心 以免把寶可夢存入電腦中、

一萬次演算都跑去買鯉魚王 因為直接加五等XD

3.月見山過多新事物 AI無法專心 中止實驗


--

※ PTT留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.186.109 (臺灣)
PTT 網址

Satoman10/25 21:26耶穌鳥屌打

xsc10/25 21:27發現一發必中BUG有點恐怖

ianpttptt10/25 21:27有台灣Yt 疑似未授權的搬運

ryoma110/25 21:28一群猴子>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>AI

BattleFries10/25 21:28好酷

willytp9712110/25 21:28看來對AI來說寶可夢暫時還太難懂了一點

yys31010/25 21:28TPP>>>>>>>AI

kinuhata10/25 21:28鯉魚王大叔或成最大贏家

shampoopoo10/25 21:30這意思是還不如金魚嗎

shadowblade10/25 21:30金魚>>>AI

shlee10/25 21:30滿酷的

andy048110/25 21:30結論 多了獎勵導向的硬A怪而已

MrSherlock10/25 21:30笑死

killerj466v210/25 21:31AI:我要皮皮!我要月見石1

ikachann10/25 21:32寶可夢其實很複雜耶 別看屬性相剋那樣 其實裡面學問超多

NoLimination10/25 21:34獎勵應該是館主 四天王 冠軍吧

NoLimination10/25 21:34一般小孩理解的第一遊戲目標

lolicon10/25 21:34AI取AI的名字XD

spfy10/25 21:35沒問題啦 12萬支猴子都能TPP破關了 相信AI

yellowd5432110/25 21:35人類:AI會毀滅世界!!

yellowd5432110/25 21:35金魚:Hold my beer.

as336670010/25 21:35要算也是先算全破SR的玩法吧 寶可夢應該沒啥AI才能做到

as336670010/25 21:35的操作

ryoma110/25 21:35等AI可以把小拉達變成夢幻再叫我

umapyoisuki10/25 21:37我小時候也都會去買鯉魚王

rabbithouse10/25 21:37用無限船票砍樹!

king912210/25 21:39鯉魚王真愛

geminitea10/25 21:42好可愛又好恐怖XDDD

orcazodiac10/25 21:43以破關為目標可能就變成各種卡BUG了

bestteam10/25 21:45小時候這裡也走超久的

furret10/25 21:45金魚腦>AI

jpnldvh10/25 21:47給夠多時間猴子也能寫出莎士比亞

q0000hcc10/25 21:49圖奇聊天室>AI

s1129sss10/25 21:51AI: 嗚嗚嗚,寶可夢中心把我的寶可夢吃掉了,以後不來了

lucky041710/25 21:51AI:我在享受遊戲,為什麼要逼我走出鎮子 AI:靠背 打

lucky041710/25 21:51怪會扣血 白痴才打

theone556610/25 21:52被存電腦嚇到不敢進去補血也太可愛

nineflower10/25 21:52過個10年是不是要說AI玩的比你好

shigurew10/25 21:53AI最大問題就是獎勵機制寫不好,只定一個最終目標沒啥用

caryamdtom10/25 21:54能夠發現以前必抓bug還蠻厲害的

scott03210/25 21:56AI居然比猴子還弱

RaiGend051910/25 21:56其實就很像三歲小孩玩的感覺

ikaros3510/25 21:57這個就你獎勵式沒寫好 獎勵式矛盾下的建模問題

ikaros3510/25 21:58要造出像人類一樣的AI 沒那麼簡單

ken84152010/25 21:58能抓到亂數種子滿厲害的耶

jeff66610/25 22:02AI沒有寫入打怪自己會變強的邏輯吧

qwork10/25 22:05這個就獎勵模式沒寫好而已 不會有人覺得“AI”只有一種吧

qwork10/25 22:07有人智商比猴子低 不代表人類智商比猴子低

e5a1t2010/25 22:09用地圖探索和隊伍等級當獎勵條件訓練 就不夠聰明 直接

e5a1t2010/25 22:09暴力寫一堆判斷條件進去一定能破關

e5a1t2010/25 22:11不然至少要加前幾步當條件 否則走迷宮會一直原地繞圈

goodday556610/25 22:12比圖奇猴子還不如

scott03210/25 22:13阿這個AI就比猴子弱阿

scott03210/25 22:15五萬個小時連小學生都不知道破關幾次了

sanro10/25 22:15這什麼鯉魚王鐵粉www

sammy021610/25 22:21太猛了

fragile8G10/25 22:24看來還是當年一群人隨機的比較好玩

krousxchen10/25 22:27現在還只是人工智障而已,還在靠人為給權重,沒辦法

krousxchen10/25 22:27有自己的判斷能力

a1207331110/25 22:31金魚的勝利

oppaidragon10/25 22:34猴子都比較強

keyboking10/25 22:48厲害了,我連常盤森林都走不出去。

scotttomlee10/25 23:08感覺這AI只是單純接受指令(獎勵)去做事的社畜(X)而已

LittleJade10/25 23:09不敢進寶可夢中心還滿可愛的XD

scotttomlee10/25 23:11不像是在玩PM遊戲 而是在玩指令給的獎勵要素

scotttomlee10/25 23:11就很濃的作業感

Kenalex10/25 23:28所以這個AI能否通關 純粹看作者能否設計出完美的獎勵機制

Kenalex10/25 23:31然而作者很明顯做不到 才會導致AI為了獎勵去做不該做的事

as110010/25 23:43我也喜歡和大叔買鯉魚王 然後在月見山練到進化

GooglePixel10/25 23:56這AI說穿了就是一套演算法 是以影像辨識為基礎 發現

GooglePixel10/25 23:56新畫面就會獎勵與紀錄起來 人腦是好幾套不同的演算

GooglePixel10/25 23:56法 不懂不用瞎噴耶

gggaaammm10/26 00:12想當初小時候卡在喝酒的老人……AI比較強

bitcch10/26 00:14手寫獎勵函數有太多可能性要判斷 複雜的場景不可能這樣作

bitcch10/26 00:16結合時事把手刻規則改用LLM判斷 雖然慢但說不定會好很多

Aquarius12610/26 00:20AI社畜,5萬小時=6年

Derozan1210/26 00:35好酷的試驗

v2163824510/26 00:53金魚屌打

pikaMH10/26 01:20鯉魚王笑死

StSoSnE10/26 01:51這影片有趣的點在觀察獎勵機制造成ai訓練的傾向性 還有

StSoSnE10/26 01:51嘗試修改的思路

willie650110/26 02:10作者想的不夠充分或故意想的不充分看會導致什麼策略

willie650110/26 02:10行為

timaaa10/26 02:23有趣

baddad10/26 08:14我也會買耶xD

baddad10/26 08:15裡面有提到,他找出不遇敵路線,這還蠻厲害的耶

lifehunter10/26 08:59玩遊戲主要是樂趣啊~

ak47899810/26 11:41這人超猛,才幾天觀看次數很高,而且有放開源碼

zack86710/26 14:12一發必中應該不是bug吧 比較像是遊戲用固定亂數表算機率

zack86710/26 14:12變因是步數之類的

Violataf10/26 21:08他裡面有說用租的伺服器算力去跑 可以快1000倍

Violataf10/26 21:10以跑40次2小時的遊戲來說 只需要6分鐘 他跑了750輪

Violataf10/26 21:11750*2*40=60000小時 租伺服器去算大概只要62.5小時

Violataf10/26 21:13伺服器租一天大約是50美金 他整個花了約1000美金