[外絮] 用機器學習模型預測MVP得主
今天早上在reddit看到的文章,覺得挺有趣,轉過來跟版友們分享。
小弟不是學資料科學的,如果內文有誤也請不吝指正
原文:https://perthirtysix.com/essay/2021-nba-mvp-race
懶人包:
作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果(包含排名及票數)建造了一個預估球員得到MVP的機率以及MVP得主的模型,
利用這個模型,在過去38年中可以正確的計算出32年的得主。
在這個模型中,各項球員數據的權重(也就是這個模型認為影響MVP票選最重要的數據)
依序如下:
球隊勝率%
每場上場時間
球隊種子序
WS/48
每場得分
出賽場次
VORP
2分命中率
罰球次數
助攻數
每場籃板
整體命中率
BPM
Usage%
每場失誤數
真實命中率
(以下不列,可以自己看圖)
模型利用以上數據算出每一個球員的candidacy score
這個分數越高者,即是模型認為越有可能得到MVP的人選
要特別說的是,某些數據本身是互相有關聯性的(譬如:兩分/三分命中率及整體命中率,或是整體命中率跟一大堆進階數據),由於已經被重複計算過,因此單項的權重會降低,不代表這項數據就不重要。
===
幾個有趣的結果
1. 誰是這38年來MVP分數最高的球員?
答案是08-09年的姆斯,分數高達4.49
2. 那最低分的MVP得主又是誰?
答案是04-05年的Nash,他當年的分數只有1.09
3. 誰的MVP被偷了?(誤)
剛剛提到38年中這個模型成功預測出32年的MVP得主,
這也代表其中有6年模型預測跟最終的結果是不一致的,
(1) 2016-2017年的MVP,模型預測得主是Harden(2.73),最終由當年拿下平均大三元 的Westbrook(2.44, 第二)拿走MVP
(2) 2010-2011年,當年分數最高的是LBJ(2.37),最終MVP被Rose(2.23)拿走。
(3) 2004-2005年,也就是上面提到,Nash以史上最低分(1.09)拿下MVP的那年。
當年屈居第二的是Shaq (1.12,其實沒差很多),也難怪他老人家到現在還在記仇
另外,隔年(05-06)Nash連莊時MVP分數也不是第一(1.8),
當年分數第一的是LBJ(2.25),只能說Nash真的是這個模型的outlier
4. Kobe到底有沒有偷了CP3一個MVP?
如果用這個模型看,答案是沒有,當年(07-08)Kobe以2.62分拿下MVP,
屈居第二的CP3分數是2.2分
5. 38年來最大的一二名差距發生在1999-2000年,當年大歐以3.71分拿下MVP,
分數第二的是Alonzo Mourning -- 0.7分 (票選第二的是KG,分數0.55)
另外,Curry全票MVP那年分數是3.47分,第二名的可愛1.89分,也是不小的差距
6. 那今年的MVP會是誰呢?
模型預測今年的MVP會是阿肥Jokic
https://imgur.com/KRIWmS9
本賽季截至目前為止,MVP分數最高的三人分別是
Jokic (2.02)
字母哥(0.26)
Embiid(0.04)
非常巨大的差距
====
有興趣的版友可以去看看這個模型是怎麼建出來的
裡面有個"Explore 1984 - 2020"可以拉出這38年間所有模型跑出來的結果
https://imgur.com/ZU04aVC
Reddit討論:
https://www.reddit.com/r/nba/comments/n150xj/
--
可以歐印阿肥了
阿肥加油
推數據量化
推數據化
這個讚
推一個
那就明顯阿肥了
38年來登登第二耶...
推
這個好像不錯
這不難就machine learning。python簡單寫
推量化 讚讚
這個好強
推
COOL~
很有趣
有趣喔 這個
不過真的有看球的就知道CP3那年MVP沒被偷
今年jokic是真的夠強,重點是幾乎沒缺陣
完了完了 這預測結果 幾個可戰的點都戰了(誤
現在MVP啊肥的國外賭盤是多少啊? 1.01?
濤哥的雞排我還沒領到有人知道他在那嗎?
all in 阿肥了
2008 每周MVPRank 倒數二周CP3第1 最後一周Kobe超車
濤哥的宇宙艇論我猶言在耳
喔喔喔這modeling 屌喔
不過我還以為分數最高會是73的咖哩
酷
(1)當年雷霆西區第六,龜拿真的是偷鬍子,不然就2
連霸了
(2)姆斯當年有拿下,是MVP五連霸...
LBJ被偷兩次 好衰
剛好在吵Nash的兩屆MVP,結果都不是該年最高分
LBJ被偷兩座...
我詹被偷2個MVP:(
詹皇悲情
推
分數測不準的那幾年幾乎都是因為所謂話題性頒獎的
MVP小偷都現形了= =
不同年的得分之間是可以比較嗎?
引戰模型 我詹又要出來炒一波話題了
說好的美國選舉人團支持咖哩勒
歐印阿肥
人會審美疲勞機器不會,LBJ被偷也沒辦法
早就說過納什偷走一個MVP了XDDD
人看得出來組團抱腿 機器看不出來
所以這個model的結果,應該也間接可以選出年度隊伍
了
LBJ真的被偷兩座,扣憐
不過光勝率和排名 這模型就不夠客觀 如果要加入不
客觀因子 那完成特殊成就也該列為一個
這個好厲害哦
是不是可以增加參數 讓回測38次都符合最後結果
這樣用來預測之後才會更準確
金筆還有什麼話要說嗎 差這麼多還是好好打自己的東
部賽程吧 MVP沒你的事 別放話了
有六次不符合 表示當年投票的人考慮其他因素
專業給推!好文可以M起來
證明姆斯MVP被Rose偷了
哈登其實被偷走兩座
勝率跟排名一直以來MVP投票都會考慮,也不能說不客
觀
超有趣!
真的引戰機器模型 好好笑
Nash抄截王
反而是破數十年紀錄,審美疲勞跟小人物出頭天這種很
難量化
誰是史上最弱mvp呢?
絕對是阿肥
以後都靠電腦算就不會有爭議惹
Shaq那年也差距太大了吧
運彩是不是沒有開這種盤啊
已經明顯會那就影響結果了 那就更應該加進去
蠻有趣的
誰當年有特殊成就(場均大三元) 連莊多次沒特別突出
推 這個好強欸
好了 可以不用吵Kobe偷CP3 MVP了
提升勝場沒考慮進去阿
下去
誰敢偷我肥的MVP !阿肥加油拿下它
數據視覺化 簡單明瞭 推推
年度大三元這個明顯是話題性考量,不然龜龜之後兩年
也有年度大三元,MVP票選卻都沒票了,就是沒話題性
了......
LBJ每年都被偷吧
龜龜那年好歹模型算出來還是第二+大三元,拿沒很過
分吧
用被偷走的講法好奇怪 依據合理解釋應該是模型預測
失準 用被偷走感覺是肯定自己模型沒有錯
LBJ每年都被偷這種話也講出口喔
推回來
LBJ 要六座MVP 還說沒偷
應該說姆斯偷了好幾年MVP吧 每年都抱團組三巨頭 最
好笑的是11年熱火戰績輸公牛
所以就引戰模型阿 紛爭是不可能停止的
rose無腦粉:當年第二名不是lbj是dh
Nash連偷兩座
戰力滿點
只是他形象不錯
如上面fj所說 應先以事實來建立模型
抱腿組巔峰三王 然後戰績輸單核的Rose 這樣叫偷
想不通為啥要捧老衲 膚色不正確
阿肥穩了
模型回測失準 就該修正
是不是沒在看防守??
權重也是可以調整的 呵呵
阿肥早就穩了
用了38年的資料結果只中32年聽起來很怪
Nash那兩年給他也沒懸念,在平均得分95的年代,太陽
史丹利學習
美國ptt好強
平均得分110,讓NBA在湖人王朝後不至於沒話題
同意fj的說法 用偷走是表示這模型是計算定律了?
0.04
機器沒辦法學習人類情感判斷?
所以NASH最低要說模型嚴重失準嗎
投票帶有非理性因素,機器人需要學習感情
如果要以事實去設計model,那很多感官或是特殊紀錄
推數據跟分享!
像是龜的得分王場均大三元,要怎麼設定就是問題
準確度超低吧...
算出來結果其實都滿合理
?? 38年正確跑出和事實相同的32年 不算低了耶
以前都說要看戰績(最大受益人Nash,Rose)然後西河
打出場均大三元又是另一回事了....
不愧是姆斯
當年龜那平均大三元 板上也都覺得MVP機會很高 所以
這種因為特殊條件的加分要怎麼設也是問題
Harden那年數據也很扯跟戰績更是狂勝
這個模型感覺對控球後衛不太有利
Nash傳統數據不出色阿 姆斯是審美疲勞+抱團太難看才
輸Rose 龜則是第一次場均大三元
控球後衛有很多層面是數據無法顯現的
對pg沒不利吧 咖哩兩屆都是符合阿??
會輸就是輸給機器無法判斷的東西了
會有結果不合 代表不夠精準 再想一下
有無法量化的因素 就無法做到100%準確啊
您的模型是不是對控衛不太友善啊
推
被Rose偷?你說CP3就算了起碼他當年第二名,姆斯當
年是第三名然後抱怨第一名在偷?
那第二名的魔獸是什麼,隱形人嗎
每年風向又不一樣,不可能都合啦
kobe cp3那年最後兩隊對決,賽前就有不少風向是說
哪隊西一,mvp機會就大增,最後湖人贏了就這樣
說一下我自己的感覺: 1. 原文有說,他們考量的結果並不只是得獎/沒得獎,而是把MVP票數、名次都有考量進去 因此就算是"失準"那幾年,可以發現其實一二名結果差距也不大 2. 預測投票不是預測氣象,太多人的主觀情感在裡面,我覺得能有這樣的準確度應該是 可以參考了 3. 當然這個東西只是模型,不是定理,100個人會做出100個不一樣的模型,就跟BBRef 上面一堆的XX probilities一樣,參考一下就好 寫個"被偷"只是想增加娛樂效果,若有冒犯敬請見諒
用過去38年資料訓練的模型,預測過去38年的資料,
準度會高也是正常...
我也想起濤哥
LBJ被偷不是公認的嗎
38中32很不錯了,硬要都中會有overfit風險
更好笑的是11公牛季後賽被碾過去
結果很有趣 但想糾正一個語病 這個不叫回測 你只能
姆迷公認XDD
說是模型預測的結果和現實符不符合
回測必須要有明確的in-sample out-of-sample
那如果用"驗證"可以嗎?
Rose那不算偷吧 組三巨頭戰績反而輸公牛才是關鍵
姆斯都被控衛偷
公牛+21勝 聯盟戰績第一 熱火+11勝 聯盟第三
照某些人的這講法加今年龜龜應該有四座Mvp了
因為得獎的是Rose才說偷啊,如果當初是DH拿也會被
說偷
龜龜連續三年場均大三元怎麼沒給他三座再加上今年
應該要四座MVP了 把龜龜的給我還來
鄉民不是很愛說老大偷MVP?
靠 原來LBJ被偷不是叫假的 還被偷兩座
就說"預測"就好啦 別說"回測"
數據量有點小
居然有學店GPA 1.9的說模型簡單
推模型,還我老大一個清白(誤
我原本要做這件事的 之後自己也來試試看
沒問題 我家肥宅已經確定 只希望不要受傷
覺得蠻準的
結果今年mvp是nash(?!)
阿肥拿得當之無愧
超屌
笑死一堆人捧金筆結果跟阿肥差距超大 哈哈
好強
今年阿肥穩了
Nash就白人加權保障名額 季後賽就穿幫了
另外補充幾點在討論中看到的: 1. 跟PTT鄉民一樣,Reddit鄉民普遍認為narratives(風向)是一個重要但是難以量化 計算的參數 2. 由於NBA的球風不斷地在改變,投票者的口味也可能跟30年前大不同,有人建議應該給 予較近期的投票結果比較高的權重。也有鄉民建議可以分析並考量30年前跟現在投票 者看重的數據的差異(例如:會不會30年前的投票者比較看重籃板,而現在的投票者 比較看重三分命中率?) 原作者有說會把這些東西放入to-do list,就看看之後會不會有更好的模型出來囉
哈登那年真的被偷
推 有趣的模型
這很酷歐
姆斯就是猛
如果模型用過去38年的資料訓練模型,然後又拿同樣的
資料驗證模型表現,那為何準確率不是100%啊?有資料
科學大師願意解惑嗎
nash好爛
推喔,感謝分享以及建模的天才
上面因為實際上選MVP是「人選」不是跑數字出來決定
用人選自然不會是100%統一的標準
太猛啦~
但這模型算是非常好預估未來人選的方式
金筆這麼低喔? PER數據很好欸
肥宅之光 衝啊
叫濤哥來看看,這才是真的大數據
我要來all in了
推
如果老漢受傷 他沒受傷的話8成是他 結果跑個模型那
麼低
這頂多能說用來解釋過去怎麼評斷的 但是過去不代表
未來
Nash真是白人膚色加持,總教練
也是空降,mvp也是空降
岳父神偷
11年這模型算出來也超接近啊 姆斯2.37 Rose2.23 把
勝率加權多一點不就是Rose贏了XD 組三巨頭勝率輸公
牛還能說被偷喔?
身家歐印阿肥
Nash不意外
這很讚啊 ^^
小新
有趣
好猛的模型
這學期做project 也用了簡單的ML預測UFC對戰
Nash是以退役、且得超過一個MVP,但唯一沒打過總冠
軍賽的球員,這程式的準確度,我覺得還是有的
阿肥海放...
丹東尼小球最大化了Nash,但也就只有摸到西冠而已
joker不是說他今年得分、籃板、助攻都排在前五,抄
截也在前十,沒給他說不過去吧
nash史上第一控,年度mvp兩顆
為我柯平反,推推!
準確率不是100%是在overfitting與underfitting之間
的trade-off 當然你可以訓練模型讓它在“既有的”
資料準確率100% 但這可能會讓你的模型過度擬合訓
練資料 反而在面對我們真正感興趣的預測未知資料
時失去準確度
但數據量有點小
冷笑話這麼厲害,怎麼在尼克湖人都玩不起來還要等
到有幫主,反而Nash還是能進西決,誰罩誰還不好說
推nash這輩子沒打過冠軍戰,年度mvp兩顆
金筆:我才該得MVP
推一個
今年金筆應該還是出不了東部,MVP就別肖想了
1984前的不去算嗎
這個換個模型結果就完全不一樣了
肥VP
這是把38年票選結果和可量化數據丟進去train出一個
最符合票選結果的各項數據權重 無法考量人為主觀因
素 結果有些誤差是正常的
結果沒看Nash打球的Nash粉跟你說就是這兩座MVP>Kidd
&CP3
怎麼能把training data和testing data混在一起阿,
這樣就跟球員兼裁判一樣
少了一個 媒體愛/新聞版面
Nash那兩座也吃不少香妹、阿罵的buff
當時太陽各項最大貢獻指標 Nash也沒第一 防守又是洞
Nash當年是真的有偷了大歐MVP的感覺
有點猛 推一個
差距巨大
這才是有價值的文章!立馬all in
這種資料量這麼少的可能是用LOOCV吧 不太可能直接
切training testing data
MDA把能力夠強的持球者極大化對於這種競爭真有效益
阿肥是真的猛
拿training data verify 還只有32/38,這model感覺不
太行欸
推
一堆人根本沒點進去看演算法ㄏㄏ
去賭博網站all in 阿肥了!!!! 翻身就靠這一發
!
我看得懂
之前不是一票喊Kobe偷CP3的MVP
阿肥阿肥得第一!
這個數據超棒耶
歐印阿肥
感覺這套數據對前場有利一點點
哇,這戰點好足,偷mvp的原來是
我先 狗鼻偷MVP
板上一堆機器學習大師,看來要看李宏毅學學了
為什麼才38年就建得出6年不符合的模型啊@@
內文是說用decision tree?
該修林軒田機器學習了QQ
早說螺絲偷我詹五連mvp
推
推量化!老詹原來有兩座寄放在別人那
推
36個點就可以做機器學習,南無厲害
聯盟不還老詹MVP就是怕喬丹被比下去
這樣樣本不會太少嗎?
38年樣本算少嗎?..就幾乎所有的記者投票都算進來了
是只有算有得票的嗎?
詳細欸
罰球次數也算?難怪一堆碰瓷mvp
我覺得罰球這數據蠻有趣的,我猜測是聯盟捧的球星通常罰球多,通常也同時是MVP熱門 罰球多是果不是因
優文給推 開放某黑崩潰
看來這模型挺客觀的
那幹嘛還票選,跑數據就知道MVP了,整天偷不偷一點
意義都沒有,難不成還要打星號
這數據少了 聲量 跟 連莊遞減效應
有趣
38年就出錯6年 還不用修正嗎
MVP很重話題的印象分啊,不然也不會雷霆全隊配合龜
龜刷場均大三元了
話題熱度延續到季末 MVP就get了
西河年年拿MVP
這模型湖人利多哈哈
明明就有答案了 就不準確啊 明顯少了一些無法量化的
數值(外部因素 如 審美疲勞)
兩個姆斯都被偷兩座mvp 摳憐
可以算一下今年冠軍嗎
他的“預測”是指預測訓練集裡面的數據?
準備寫論文囉!
AI是需要資料去學習,數據量越多會越準確,mvp才幾個
還有需要考慮投票者突然腦袋斷線因素
又要來一個歐洲MVP了,期待
首先要思考的是基本上不存在數據不夠漂亮結果拿MVP
的狀況。所以這一篇夯不啷噹列了25個指標,也就是
更加強「堆數據=MVP」的推論。所以可以玩味的是這
模型的6個例外是不是有什麼重要資訊是沒有涵蓋在在
25項指標內。
酷 有空來看
原PO在心得&回覆上的見解與氣度令人欽佩
對模型的批評又不是針對原po
這個不會過度耦合嗎?如果用訓練資料的模型再去跑測
試資料?
史上最__mvp
這模型蠻有意思的
詹被偷兩個...
還我姆斯2座MVP獎杯==
很有趣又有深度,謝謝原po分享。希望以後能多點這種
文章
酷
推數據
羅斯那個就聯盟捧加姆斯那年是反派 不算偷吧
就說LBJ被Rose偷MVP
可以噢
猛
出席率影響太大了
有趣
終於還Kobe清白了
所以以數據化來看,cp3表現最好的那年其實不輸給Na
sh
歐肥那年強到可怕 很多人氣到不想看比賽
完了 雖然喜歡咖喱 看來是阿肥了
全票MVP沒毛病,差距那麼大,我阿嬤都知道要給Curry
~
38個資料點 恐怕很難做什麼有意義的學習
那些說詹沒被偷的詹酸勒
數據都出來了 老詹就真的數據疲勞被偷至少兩座mvp
幸好真的夠猛 現在成就還是聯盟第一
組三巨頭戰績還輸公牛 這樣也敢說偷?
西強東弱的因素也沒有放進模組
去年才有人模擬快艇會奪冠XD
這個好
水唷
該戰的全戰了,機器學習真的好棒棒
看到這個以為又是濤哥
推
阿肥,阿肥,叭叭叭~~
nash拿是因為太陽戰績好 外加帶起小球球風 有時mvp
真的蠻印象派
朝聖
朝聖!
MVP大偷NASH
爆
[討論] KD和字母哥誰比較強有點好奇大家覺得KD和字母哥誰比較強 這兩個人不論身高位置體型都蠻像的 只是字母哥感覺比KD壯蠻多 但KD外線的手感和流暢性比字母哥好很多 稍微比較一下兩人的MVP年例行賽數據爆
[討論] 小丑字母鉛筆,數字來看誰值得MVP二月初MVP Ladder文章討論時 我比較過小丑和字母的數據 #1ZveOcx9 (NBA) 2023賽季即將到尾聲,剛好三隊都打78場了 就讓我們來看看小丑 字母 鉛筆爆
[專欄] 《NBA》Nikola Jokic邁向MVP三連霸之路《NBA》Nikola Jokic邁向MVP三連霸之路 編譯:運動喫羊肉 原文:Nikola Jokic is delivering another Kia MVP-caliber season 在聯盟充滿鬼神數據本季,季末的MVP票選肯定會非常激烈。目前Nikola Jokic手上握有 接近場均大三元、61.5%投籃命中率、24.1的ON/OFF DIFF等頂尖數據。如果他能保持整季69
[情報] Joel Embiid近14場個人表現Points & Boards in Last 14 38 & 12 (tonight) 40 & 13 50 & 1259
[外絮] 101位前NBA球員票選目前聯盟中最佳球員101位前NBA球員票選目前聯盟中最佳球員 The NBA is full of talent right now, and some players are constantly putting up big performances, with some fighting for the unofficial title of the best player in the world. 現在的NBA人才濟濟,一些球員不斷打出精彩表現,一些人正在爭奪世界最佳球員的非官方35
Re: [情報] Race to the MVP Ladder / Rookie Ladder雖然很想看字母再拿第三座MVP啦 可惜Jokic真的是太誇張,輸給他也是心服口服 單看數字或許會覺得沒有差很多 字母 32.3分 12.4板 5.4助 0.8抄 0.8鍋 小丑 24.8分 11.3板 10.1助 1.3抄 0.7鍋1X
[討論] 原來當初Nash的MVP算是偷的?#1WYs3Uo8 (NBA) 前面幾篇的一個程式文 回推了過往MVP候選人的數據 發現原來Nash的兩個MVP 按照程式的計算4
Re: [外絮] 用機器學習模型預估MVP得主討論這問題先搞懂MVP是啥好嗎? 最有“價值”球員 球員的價值又不是那些數據能完整呈現的 況且這些數據基本都是人為定義 老衲第一年會拿主因就是回歸後作為核心戰績躍升9
Re: [外絮] 用機器學習模型預估MVP得主其實前幾篇文章有稍微回應機器學習的問題 也提到了nash比較像非典型的MVP 這時候再回頭來看這些輸入訓練的特徵 就會看出問題了 全都是最典型的數據 nash的太陽隊球風確實帶出了不同的NBA視界
爆
[討論] 蟻人現在有超過他的模板韋德了嗎?78
[花邊] 嘴綠跟Arenas談阿肥MVP87
Re: [花邊] 嘴綠跟Arenas談阿肥MVP34
[討論] 咖哩是最隨和的超巨嗎68
[花邊] Roy Hibbert,Lance Stephenson重返溜馬主場67
Re: [外絮] 鵜鶘中鋒Valanciunas可能不會以自由球爆
[情報] AE:輸球我負責,我讓球隊和球迷失望了46
Re: [花邊] 嘴綠跟Arenas談阿肥MVP27
Re: [花邊] 嘴綠跟Arenas談阿肥MVP87
[情報] 湖人下週面試教練 人選:Atkinson、Redd21
Re: [新聞] 拒絕跟Jordan比較!灰狼Edwards:我不49
[外絮] 鵜鶘中鋒Valanciunas可能不會以自由球25
Re: [討論] 所以狗貝到底重不重要31
[情報] KAT: 我們不擔心裁判的吹判 畢竟是季後賽13
[情報] 明日裁判名單73
[花邊] Tony Brothers連吹兩個T給灰狼球員爆
[花邊] Nick Young : NBA真噁心爆
[討論] 當今NBA誰最惹不得?