Difficulty of Predicting Playoff
在進入本文之前,先做一個道歉聲明:事情發生在個人在上一篇 Essence 裡關於 "WPA 呈現 model reality 的忠實程度" 的那一段。
以 WPA 來談論 model reality 其實是 "完完全全的廢話"!因為 WPA 就是拿勝場分配給每一位 contribute 的球員,它非得具有 model reality 不可的!這是 WPA 的 "spec",嚴格說來,不是長處。
這是個人的失察,謹此致歉,接下來進入本文。
◎ You can be a playoff columnist, too!
最近在 THT 上有一系列 "Why the XXX lose to the YYY?" 或是 "Why the XXX will beat the YYY?" 的 playoff column,對個人而言,這有點像是每天早上吃早餐一樣的 routine。球季到了 10 月份,這類的文章到處都讀得到,而且內容都不外乎把兩支對陣球隊在該季的 "stats" 或是 "advanced stats" 拿出來比較一番。對此,我們可以問以下幾個問題:
如果第一個問題的答案是 "Yes" (我相信它也應該是 "Yes"),你我都可以做 playoff 時期的 columnists。
在思考第二個問題前,我們先想一想每年季初有那麼多的 prediction system 把結果公布在網路上讓 fantasy baseball fans 參考,他們是怎麼出發的呢?以 Tango 的 Marcel 來例,它必需擁有球員前 3 年的資料、取不同的 weighted 做為預測的基準,一般來說,考慮 3 年的資訊 "大約" 足以將球員真正的能力顯現出來 (or regress toward the mean, so to speak),也才能保証預測的準確程度。
總而言之,資料越多,利用此間的相關性會使預測結果更可靠,這也是為什麼我們說統計學最重要的三件事就是 sample size、sample size and sample size。
即便如此,莫說是 Marcel,PECOTA、Zips 等等 -- 利用多年統計資料的預測系統 -- 都不見得會讓所有的人買帳,那麼回過頭來,球員們 1 season 的 stats 在 upcoming playoff series 裡會有多大的準確程度?有多好的預測能力?
By the way,依這條路線往前跨一步:咱們為什麼要把 "特定投手與特定打者的對戰成績" 當一回事?David Ortiz 在 07 年對 Wang 是 7/13、OPS 近 1.600,這當然也不足以得到 "Big Pappi owns Wang." 的結論,不是嗎?
說穿了,用 1-season stats 做評述並不是一個 solid ground。
◎ Probability & statistics
這裡很簡單的談一下 機率 (probability) 與 統計 (statistics) 的差別,以白話文來表達,這兩樣東西其實是 "倒過來的"!機率 是探求一個分佈 (distribution) 的行為與內涵;統計 則是利用手中的資料去推導出可能分佈的母數 (parameter)。
對於一場比賽的結果,它必然是 zero-sum game -- 一定有一方要被 "掛掉" -- 和丟一個銅板只會出現正面與反面是一樣的意思。正確的說,一場比賽其實就是一個 伯努力 事件 (Bernoulli trial),模型遵從 伯努力分佈 (Bernoulli Distribution),母數則是 P,或者說就是對戰時某球隊的 WPCT。
統計學要做的就是估計 (estimate) 這個母數 P。
◎ The Log-5 method
Bill James 曾經提出一個叫 Log-5 的方法,它的目的就是在計算兩支球隊的對戰勝率,它的描述是這樣的:
Pr(A beats B) = X / Y
X = [ AW% - ( BW% * AW%) ]
Y = [ AW% + BW% - ( 2 * AW% * BW% ) ]
Where:
Pr(A beats B) represents the probability A beats B.
AW% represents the WPCT of team A.
BW% represents the WPCT of team B.
原則上 Pr(A beats B) + Pr(B beats A) = 1,這一點是沒有疑問的!換句話說,這裡的 Pr(A beats B) 其實就是上一段的 伯努力分佈 裡所提到母數 P。
以 07 年的 NLDS -- D'Backs VS Rockies 為例,D'Backs 的 WPCT 是 .556 (90-72);Rockies 則是 .552 (90-73),套進 Log-5 method 的結果:
X = [ .556 - ( .556 * .552 ) ]
Y = [ .556 + .552 - ( 2 * .556 * .552 ) ]
Pr( D'Backs beat Rockies ) = X / Y = 0.504
Pr( Rockies beat D'Backs ) = 1 - 0.504 = 0.496
可以發現這個結果和丟一枚公正銅板的結果差不會太多。有閒的朋友不妨用 Strength of Schedule 的方式修正兩隊的 season WPCT 再來做 Log-5。
話說回來,個人在這裡介紹 Log-5 並不代表我很瞭解它,這和 Pythagorean Formula 一樣讓人看不出式子的內涵 ("內涵" 的意思是 -- 比方說 Raw Eqa -- 一看就曉得它是由 OPS 修正而來,分子的部分甚至是一種 "wild runs" 的表現),但個人也無法找出更好的方法來估計 P。
◎ How much does .504 mean to us?
現在有了一個也許不是太讓人滿意的 Log-5 來估計母數,我們要回頭看看 伯努力分佈 的行為 -- 也就是它的 期望值 (expected value) 與 變異數 (variance),想看正式一點的網友不妨參考 Wiki 的說明:
EX = P
Variance = P * ( 1 - P )
我想 期望值 的部份不用多加說明,至於 變異數 的部份就稍微帶一下。
變異數 的意義是各 "觀察值" 與 "期望值 差距的平方和的平均",用白話文來講,變異數 就像是去 measure 結果的 "uncertainty",如果與 期望值 離得較遠的值越多,變異數 自然越大,也就是說現有的 母數 (P) 與現有 分佈 (Bernoulli) 去預測結果,發生 miss 的可能性也越大。而關於 伯努力分佈 的行為,當 P = 0.5 的時候,它的 變異數 會到達最大值,等於有最大的 uncertainty。
Does this ring any bell to you?
是的!如果 Log-5 的估計結果是準確的,D'Backs 與 Rockies 的對戰的 uncertainty 其實就快要接近最大值了,也就是說誰勝出都不值得意外!另一方面,變異數 的行為也間接說明所謂先發投手的 "consistency" 對球隊的勝利其實沒有太多實質的貢獻,overall RA 說明了一切,而在 RA 相同的前提下,表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。
當然,如果我們想探究一個 series 而非單一場比賽,一連串 伯努力事件 會構成一個 二項式分佈 (Binomial Distribution),有興趣的朋友請自行玩玩看,這裡不多談。
到這裡應當已經 somehow 說明 playoff 的結果為什麼通常會很出人意表、或者說要給出一個可信的預測有多麼困難。我們總是說 "May the best team win",但是對 MLB 的 10 月份來說,這句話其實是很奢侈的!World Series Title 給的是 10 月份最熱的球隊,不是最好的球隊。
◎ Back to the question...
Nate Silver 在 06 年與 BBTN (Baseball Between the Numbers) 裡都提到 secrete sauce 這個東西,個人也曾經 小小的談過,到了 07 年,原本在 BP Statistics 頁面佔有一席之地的 secret sauce 卻只剩下一篇 unfiltered 的描述。當然 secret sauce 有它的道理,但也讓我提醒一下:在 Nate 所設計的 model 裡,EqK9、FRAA 與 WXRL 與 playoff score 的 correlation 大約只在 0.2 上下,小得可憐!這就像是一根小草 -- 抓在手中毫不起眼,卻又不能輕易放掉。
不過這裡也不至於帶出要 "拿球員 3 年來的資料來做基底以預測他們在短期比賽的表現" 的結論,我想說的是:對於 playoff,猜對或猜錯其實都不值得說嘴,因為不管有多少的 background 在背後支持我們的預測,它都和瞎猜差不多。
Can we do anything better? Well, maybe not now.
※※※※※※※※
Dodger Fans 最敬愛的 Ken Gurnick 趁著 playoff 時期在官網興風作浪了:
所以官方認為 Pierre 的問題是 "defensive issue",他的 arm strength 是 below average (try "below my younger sister"...),所以要把它往 corner 移動,這代表什麼呢?
- Ned Colletti 在簽 Pierre 的時候不曉得他是 sissy arm,他以為 ML 級的 OF 的肩力和他 "打X槍" 的力道差不多就行了。
- 顯然 Dodgers 還是沒搞清楚他們的問題在哪裡,07 年的 Dodgers 明明就是 offensive ineffectiveness 拖垮的啊!
- Pierre 如果真的移到 LF,很可能代表 Ethier 08 年又要失業,不過我很難相信 Dodgers 還會繼續花錢去搶 Andruw Jones。
我奇怪的是像 A-Rod 這麼好的球員,在 NY 稍有閃失,媒體就把他弄得剩下半條命;Pierre 在 LA 比一條熱狗的價值都不如,卻仍然活得好好的?換做在 NY,他還有命在嗎?或者說,LA 的 local media 的良心都到哪裡去了呢?
So, Ken told us that Pierre might shift in the outfield? Try shift to the trash can, asshole...
6 comments:
I say bring A-Rod to LA...
He is already playing for the Dodgers in my MLB 07 the Show on PS2 anyways...hahahaha
Cheers,
Wilson
有關這一段:
表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。
這是在說王建民的穩定表現對球隊沒有幫助嗎?
樓上,這邊沒人在提 Wang,至於 Morikawa 真正想說什麼,就請讓他來告訴您了。
To Morikawa:
I love your comment toward Pierre.
之前哪裡看過有誰提過log5(大概是這裡),我已經不記得了,但是自從看了BP分析Cubs vs. D'Backs,就了解原來這東西的算式這麼單純,所以我還是要有實物可以參考才能理解:
http://baseballprospectus.com/article.php?articleid=6781
我不了解這數學,沒學過,可是還是來review一下您的內容:
Binominal分布告訴我們,log5的計算給任何playoff球隊在一個series中勝出對方的機率 都非常接近50/50,所以不可能知道結果,是嗎?
至於您提到的"May the best" 我去年開始和球迷朋友閒聊已經修正為「The Better team should win。」
當然,當我對Cards fan說:
「St. Louis might have won the Title, but this doesn't mean that NL had become better than AL, because AL still has better pitching,」誰會相信啊?!
XD
Hi Wilson,
That may take 10-year 300M to sign A-Rod if he opts out this offseason. Plus, it's time for him to start declining, the question is how quick.
Nevertheless, I love having A-Rod in our daily lineup, too.
--------
Hi Anonymous,
你忘了前面這一句:
"而在 RA 相同的前提下"
不過你也沒說錯太多就是了,在 overall 相同的情況下,我不認為表現一致就有特別的 advantage,and vice versa。
--------
Hi GoTribeYang,
我在你的 message board 上留了言,希望你有空也和我們聊一下 John Perrotto 10/14 日的那個 column -- 裡頭有關 Shapiro 的事,我想知道真正的 Tribe Fans 怎麼看自己的 62M total payroll performance。
以局外人的身份,我始終認為 Moneyball 在 AL East 是寫不出來的!I mean, when you got a lot of money and a clever GM, how can you team be uncompetitive...
Dorasaga,
這一段話要做一些修正:
"Binominal分布告訴我們,log5的計算給任何playoff球隊在一個series中勝出對方的機率 都非常接近50/50,所以不可能知道結果,是嗎?"
log5 的計算並不是告訴我們每隊的機率都接近 50-50,同時對單一場比賽而言,應該是 Bernoulli Dist. 而不是 Binomial Dist。
基於 variance 可視為 uncertainty 的一個指標,又,Bernoulli Dist. 的 variance 在 P = 0.5 的時候達到最大值,所以 如果兩隊用 Log5 算出的對戰勝率很接近 50-50,那麼比賽倒向哪一邊都不會意外 -- 因為它就像丟銅板一樣。
有個故事是這麼說的:有位老師要他的學生回家後拿一枚 fair coin 丟 100 次並把每次的結果都記錄下來當成作業明天交,最後這位老師看過學生的作業後表示:
"你們沒有一個人真正用心的記錄 100 次的結果,因為你們的作業裡沒有一個人出現連續 5 次以上的正面或反面"
我們也可以用亂數產生器做一個 P = 0.5 的 Bernoulli trial 100 回,然後將這個實驗重複 100 次,如果沒有任何一組出現 5 個甚至以上的 consecutive 1's or 0's,那這個亂數產生器一定有問題。
P = 0.5 代表 1 正 1 反,這就是很多人對 "隨機" (randomness) 的認知錯誤,隨機真正的意義是 "找不到 pattern",所以萬一真的持續出現 1 正 1 反,那就是有 pattern,也當然不叫隨機。
那麼如果其中 3 個連續正面 -- 出現在一個 best-5 的 series,with log5 算出的 WPCT 很接近 0.5,其實並沒有什麼值得訝異。
至於從 Bernoulii 推到 Binomial,舉例來說:假使 A 勝 B 的機率是 0.6,在一個 best-5 的 series 裡,A 以打 4 場最後獲勝的機會將是:
(0.6^3) * (0.4^1) * C(3, 2) = 0.26
其中 C(3, 2) 代表 combination 。
這裡的考量點是 "A 獲勝" (重要!),所以 A 會在 4 場比賽裡拿到 3 勝,但無論如何,第 4 場比賽 A 是必定要贏的,所以前 3 場比賽裡 A 必須任贏兩場 (順序不拘),那就是 C(3, 2) 種組合方式;反過來說,前 3 場比賽裡 B 只會贏 1 場,所以是 C(3, 1) 種組合,當然,我們曉得 C(3, 2) = C(3, 1)。
大概是這個樣子,另一方面在玩的時候要小心這個 best-5 series 的機率空間 (probability space),它應當包括下面6 種狀況:
A / B 3 場勝出
A / B 4 場勝出
A / B 5 場勝出
這 6 個情況的機率和才是 "1"。換句話說 A "晉級的機率" 是 A 在 3、4、5 場勝出的機率總和。
Post a Comment