Saturday, October 13, 2007

Difficulty of Predicting Playoff

在進入本文之前,先做一個道歉聲明:事情發生在個人在上一篇 Essence 裡關於 "WPA 呈現 model reality 的忠實程度" 的那一段。

以 WPA 來談論 model reality 其實是 "完完全全的廢話"!因為 WPA 就是拿勝場分配給每一位 contribute 的球員,它非得具有 model reality 不可的!這是 WPA 的 "spec",嚴格說來,不是長處。

這是個人的失察,謹此致歉,接下來進入本文。


You can be a playoff columnist, too!

最近在 THT 上有一系列 "Why the XXX lose to the YYY?" 或是 "Why the XXX will beat the YYY?" 的 playoff column,對個人而言,這有點像是每天早上吃早餐一樣的 routine。球季到了 10 月份,這類的文章到處都讀得到,而且內容都不外乎把兩支對陣球隊在該季的 "stats" 或是 "advanced stats" 拿出來比較一番。對此,我們可以問以下幾個問題:

  • Can't you dig out those (advanced) stats and line them up by yourself?

  • Is that all we can do? Or Can we do it better?

  • 如果第一個問題的答案是 "Yes" (我相信它也應該是 "Yes"),你我都可以做 playoff 時期的 columnists。

    在思考第二個問題前,我們先想一想每年季初有那麼多的 prediction system 把結果公布在網路上讓 fantasy baseball fans 參考,他們是怎麼出發的呢?以 Tango 的 Marcel 來例,它必需擁有球員前 3 年的資料、取不同的 weighted 做為預測的基準,一般來說,考慮 3 年的資訊 "大約" 足以將球員真正的能力顯現出來 (or regress toward the mean, so to speak),也才能保証預測的準確程度。

    總而言之,資料越多,利用此間的相關性會使預測結果更可靠,這也是為什麼我們說統計學最重要的三件事就是 sample size、sample size and sample size。

    即便如此,莫說是 Marcel,PECOTA、Zips 等等 -- 利用多年統計資料的預測系統 -- 都不見得會讓所有的人買帳,那麼回過頭來,球員們 1 season 的 stats 在 upcoming playoff series 裡會有多大的準確程度?有多好的預測能力?

    By the way,依這條路線往前跨一步:咱們為什麼要把 "特定投手與特定打者的對戰成績" 當一回事?David Ortiz 在 07 年對 Wang 是 7/13、OPS 近 1.600,這當然也不足以得到 "Big Pappi owns Wang." 的結論,不是嗎?

    說穿了,用 1-season stats 做評述並不是一個 solid ground。


    Probability & statistics

    這裡很簡單的談一下 機率 (probability) 與 統計 (statistics) 的差別,以白話文來表達,這兩樣東西其實是 "倒過來的"!機率 是探求一個分佈 (distribution) 的行為與內涵;統計 則是利用手中的資料去推導出可能分佈的母數 (parameter)。

    對於一場比賽的結果,它必然是 zero-sum game -- 一定有一方要被 "掛掉" -- 和丟一個銅板只會出現正面與反面是一樣的意思。正確的說,一場比賽其實就是一個 伯努力 事件 (Bernoulli trial),模型遵從 伯努力分佈 (Bernoulli Distribution),母數則是 P,或者說就是對戰時某球隊的 WPCT。

    統計學要做的就是估計 (estimate) 這個母數 P。



    The Log-5 method

    Bill James 曾經提出一個叫 Log-5 的方法,它的目的就是在計算兩支球隊的對戰勝率,它的描述是這樣的:

    Pr(A beats B) = X / Y
    X = [ AW% - ( BW% * AW%) ]
    Y = [ AW% + BW% - ( 2 * AW% * BW% ) ]


    Where:
    Pr(A beats B) represents the probability A beats B.
    AW% represents the WPCT of team A.
    BW% represents the WPCT of team B.

    原則上 Pr(A beats B) + Pr(B beats A) = 1,這一點是沒有疑問的!換句話說,這裡的 Pr(A beats B) 其實就是上一段的 伯努力分佈 裡所提到母數 P。

    以 07 年的 NLDS -- D'Backs VS Rockies 為例,D'Backs 的 WPCT 是 .556 (90-72);Rockies 則是 .552 (90-73),套進 Log-5 method 的結果:

    X = [ .556 - ( .556 * .552 ) ]
    Y = [ .556 + .552 - ( 2 * .556 * .552 ) ]

    Pr( D'Backs beat Rockies ) = X / Y = 0.504
    Pr( Rockies beat D'Backs ) = 1 - 0.504 = 0.496

    可以發現這個結果和丟一枚公正銅板的結果差不會太多。有閒的朋友不妨用 Strength of Schedule 的方式修正兩隊的 season WPCT 再來做 Log-5。

    話說回來,個人在這裡介紹 Log-5 並不代表我很瞭解它,這和 Pythagorean Formula 一樣讓人看不出式子的內涵 ("內涵" 的意思是 -- 比方說 Raw Eqa -- 一看就曉得它是由 OPS 修正而來,分子的部分甚至是一種 "wild runs" 的表現),但個人也無法找出更好的方法來估計 P。



    How much does .504 mean to us?

    現在有了一個也許不是太讓人滿意的 Log-5 來估計母數,我們要回頭看看 伯努力分佈 的行為 -- 也就是它的 期望值 (expected value) 與 變異數 (variance),想看正式一點的網友不妨參考 Wiki 的說明

    EX = P
    Variance = P * ( 1 - P )

    我想 期望值 的部份不用多加說明,至於 變異數 的部份就稍微帶一下。

    變異數 的意義是各 "觀察值" 與 "期望值 差距的平方和的平均",用白話文來講,變異數 就像是去 measure 結果的 "uncertainty",如果與 期望值 離得較遠的值越多,變異數 自然越大,也就是說現有的 母數 (P) 與現有 分佈 (Bernoulli) 去預測結果,發生 miss 的可能性也越大。而關於 伯努力分佈 的行為,當 P = 0.5 的時候,它的 變異數 會到達最大值,等於有最大的 uncertainty。

    Does this ring any bell to you?

    是的!如果 Log-5 的估計結果是準確的,D'Backs 與 Rockies 的對戰的 uncertainty 其實就快要接近最大值了,也就是說誰勝出都不值得意外!另一方面,變異數 的行為也間接說明所謂先發投手的 "consistency" 對球隊的勝利其實沒有太多實質的貢獻,overall RA 說明了一切,而在 RA 相同的前提下,表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。

    當然,如果我們想探究一個 series 而非單一場比賽,一連串 伯努力事件 會構成一個 二項式分佈 (Binomial Distribution),有興趣的朋友請自行玩玩看,這裡不多談。

    到這裡應當已經 somehow 說明 playoff 的結果為什麼通常會很出人意表、或者說要給出一個可信的預測有多麼困難。我們總是說 "May the best team win",但是對 MLB 的 10 月份來說,這句話其實是很奢侈的!World Series Title 給的是 10 月份最熱的球隊,不是最好的球隊。



    Back to the question...

    Nate Silver 在 06 年與 BBTN (Baseball Between the Numbers) 裡都提到 secrete sauce 這個東西,個人也曾經 小小的談過,到了 07 年,原本在 BP Statistics 頁面佔有一席之地的 secret sauce 卻只剩下一篇 unfiltered 的描述。當然 secret sauce 有它的道理,但也讓我提醒一下:在 Nate 所設計的 model 裡,EqK9、FRAA 與 WXRL 與 playoff score 的 correlation 大約只在 0.2 上下,小得可憐!這就像是一根小草 -- 抓在手中毫不起眼,卻又不能輕易放掉。

    不過這裡也不至於帶出要 "拿球員 3 年來的資料來做基底以預測他們在短期比賽的表現" 的結論,我想說的是:對於 playoff,猜對或猜錯其實都不值得說嘴,因為不管有多少的 background 在背後支持我們的預測,它都和瞎猜差不多。

    Can we do anything better? Well, maybe not now.



    ※※※※※※※※

    Dodger Fans 最敬愛的 Ken Gurnick 趁著 playoff 時期在官網興風作浪了:

  • Pierre might shift in the outfield

  • 所以官方認為 Pierre 的問題是 "defensive issue",他的 arm strength 是 below average (try "below my younger sister"...),所以要把它往 corner 移動,這代表什麼呢?

    • Ned Colletti 在簽 Pierre 的時候不曉得他是 sissy arm,他以為 ML 級的 OF 的肩力和他 "打X槍" 的力道差不多就行了。

    • 顯然 Dodgers 還是沒搞清楚他們的問題在哪裡,07 年的 Dodgers 明明就是 offensive ineffectiveness 拖垮的啊!

    • Pierre 如果真的移到 LF,很可能代表 Ethier 08 年又要失業,不過我很難相信 Dodgers 還會繼續花錢去搶 Andruw Jones。

    我奇怪的是像 A-Rod 這麼好的球員,在 NY 稍有閃失,媒體就把他弄得剩下半條命;Pierre 在 LA 比一條熱狗的價值都不如,卻仍然活得好好的?換做在 NY,他還有命在嗎?或者說,LA 的 local media 的良心都到哪裡去了呢?

    So, Ken told us that Pierre might shift in the outfield? Try shift to the trash can, asshole...

    6 comments:

    Wilson said...

    I say bring A-Rod to LA...

    He is already playing for the Dodgers in my MLB 07 the Show on PS2 anyways...hahahaha

    Cheers,

    Wilson

    Anonymous said...

    有關這一段:

    表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。

    這是在說王建民的穩定表現對球隊沒有幫助嗎?

    GoTribeYang said...

    樓上,這邊沒人在提 Wang,至於 Morikawa 真正想說什麼,就請讓他來告訴您了。

    To Morikawa:
    I love your comment toward Pierre.

    Dorasaga said...

    之前哪裡看過有誰提過log5(大概是這裡),我已經不記得了,但是自從看了BP分析Cubs vs. D'Backs,就了解原來這東西的算式這麼單純,所以我還是要有實物可以參考才能理解:
    http://baseballprospectus.com/article.php?articleid=6781

    我不了解這數學,沒學過,可是還是來review一下您的內容:
    Binominal分布告訴我們,log5的計算給任何playoff球隊在一個series中勝出對方的機率 都非常接近50/50,所以不可能知道結果,是嗎?

    至於您提到的"May the best" 我去年開始和球迷朋友閒聊已經修正為「The Better team should win。」

    當然,當我對Cards fan說:
    「St. Louis might have won the Title, but this doesn't mean that NL had become better than AL, because AL still has better pitching,」誰會相信啊?!
    XD

    Morikawa said...

    Hi Wilson,

    That may take 10-year 300M to sign A-Rod if he opts out this offseason. Plus, it's time for him to start declining, the question is how quick.

    Nevertheless, I love having A-Rod in our daily lineup, too.

    --------

    Hi Anonymous,

    你忘了前面這一句:

    "而在 RA 相同的前提下"

    不過你也沒說錯太多就是了,在 overall 相同的情況下,我不認為表現一致就有特別的 advantage,and vice versa。

    --------

    Hi GoTribeYang,

    我在你的 message board 上留了言,希望你有空也和我們聊一下 John Perrotto 10/14 日的那個 column -- 裡頭有關 Shapiro 的事,我想知道真正的 Tribe Fans 怎麼看自己的 62M total payroll performance。

    以局外人的身份,我始終認為 Moneyball 在 AL East 是寫不出來的!I mean, when you got a lot of money and a clever GM, how can you team be uncompetitive...

    Morikawa said...

    Dorasaga,

    這一段話要做一些修正:

    "Binominal分布告訴我們,log5的計算給任何playoff球隊在一個series中勝出對方的機率 都非常接近50/50,所以不可能知道結果,是嗎?"

    log5 的計算並不是告訴我們每隊的機率都接近 50-50,同時對單一場比賽而言,應該是 Bernoulli Dist. 而不是 Binomial Dist。

    基於 variance 可視為 uncertainty 的一個指標,又,Bernoulli Dist. 的 variance 在 P = 0.5 的時候達到最大值,所以 如果兩隊用 Log5 算出的對戰勝率很接近 50-50,那麼比賽倒向哪一邊都不會意外 -- 因為它就像丟銅板一樣。

    有個故事是這麼說的:有位老師要他的學生回家後拿一枚 fair coin 丟 100 次並把每次的結果都記錄下來當成作業明天交,最後這位老師看過學生的作業後表示:

    "你們沒有一個人真正用心的記錄 100 次的結果,因為你們的作業裡沒有一個人出現連續 5 次以上的正面或反面"

    我們也可以用亂數產生器做一個 P = 0.5 的 Bernoulli trial 100 回,然後將這個實驗重複 100 次,如果沒有任何一組出現 5 個甚至以上的 consecutive 1's or 0's,那這個亂數產生器一定有問題。

    P = 0.5 代表 1 正 1 反,這就是很多人對 "隨機" (randomness) 的認知錯誤,隨機真正的意義是 "找不到 pattern",所以萬一真的持續出現 1 正 1 反,那就是有 pattern,也當然不叫隨機。

    那麼如果其中 3 個連續正面 -- 出現在一個 best-5 的 series,with log5 算出的 WPCT 很接近 0.5,其實並沒有什麼值得訝異。

    至於從 Bernoulii 推到 Binomial,舉例來說:假使 A 勝 B 的機率是 0.6,在一個 best-5 的 series 裡,A 以打 4 場最後獲勝的機會將是:

    (0.6^3) * (0.4^1) * C(3, 2) = 0.26

    其中 C(3, 2) 代表 combination

    這裡的考量點是 "A 獲勝" (重要!),所以 A 會在 4 場比賽裡拿到 3 勝,但無論如何,第 4 場比賽 A 是必定要贏的所以前 3 場比賽裡 A 必須任贏兩場 (順序不拘),那就是 C(3, 2) 種組合方式;反過來說,前 3 場比賽裡 B 只會贏 1 場,所以是 C(3, 1) 種組合,當然,我們曉得 C(3, 2) = C(3, 1)。

    大概是這個樣子,另一方面在玩的時候要小心這個 best-5 series 的機率空間 (probability space),它應當包括下面6 種狀況:

    A / B 3 場勝出
    A / B 4 場勝出
    A / B 5 場勝出

    這 6 個情況的機率和才是 "1"。換句話說 A "晉級的機率" 是 A 在 3、4、5 場勝出的機率總和。