Wednesday, October 31, 2007

Hell's Fiery Pit

很久沒有 follow 新聞稿 -- 不論是本國電或外電報導,這回就 follow 多一點。

隨著 WS 的結束,A-Rod 透過 Boras 執行 escape clause 原本應該是眾所矚目的焦點,但 Joe Torre -- 這位在 NY 待了超過一個 decade 的老教頭 -- 的動向以相當意外的方式 (至少讓個人很意外...) 搶攻了部份新聞版面。個人的消息也許得知得比較晚,一直到公司同事談及 "Torre 接任 Dodger manager" 的真實性之前,我都不曾把 LA 和 Torre 連在一起。

整件事的開端或許是 Fox Sport 的 Ken Rosenthal 所寫的這篇文章:

  • Torre would be perfect fit for Dodgers

  • 其實不乏台灣的平面媒體將這篇文章拿出來大書特書,或許是因為 Wang 的關係才讓 Torre 的未來在台灣也能成為話題,let alone 在 rumor 末端的 Dodgers 也養了不少台灣出身的好手,不過個人讀到這篇文章時只有一個反應:Rosenthal 具有 把一件簡單的事分成 5 段廢話來表達的本事

    簡單的 review 一下:

    • The Dodgers would gain an identity
      就算 Dodgers 沒有 identity,這支球隊的 pay attendance 仍然是 NL 第 1、MLB 第 2 (僅次於 Yankees),打在 Dodgers 身上的鎂光燈依舊是 nationwide,那麼 identity 的或有或無,究竟有什麼差別呢?

      Plus,sooner or later,Russell Martin、Chad Billingsley ... 等一干人就要 (或 "應該要") 成為 Dodgers 的 identity,Rosenthal 以為 Jeter 怎麼成為 NY 客最愛的?

    • The free-agent market is terrible
      面對 07 年 Free-agent market 的問題,要傷腦筋的又豈止是 Dodgers 而已?也別忘了 LA 目前 40-man roster 裡已經有 9 名球員吃掉 76M 的 payroll,現階段不僅看不出來還有多少資金運用的空間,談到 A-Rod 或 Andruw Jones,Ned Colletti 肯不肯和 Boras 坐上談判桌都還是另一回事 -- 這笨蛋在 06 年 offseason 連 Eric Gagne 和 Greg Maddux (兩人都是 Boras 的 客戶) 的 salary arbitration 都懶得 offer -- 只因為他和 Boras "went sour"。

    • Little soon might be gone, anyway
      He has gone! Good riddance anyway.

    • Owner Frank McCourt needs a win
      Can you name the MLB team owners who aren't shy of wins?

    • Torre is hungry
      Figuratively, I don't think there's a single manager who doesn't feel hungry for wins; literally, I would starve to death should the "3-year 19M" Joe Torre feel hungry.

    必須很坦白的說:這篇文章一點也不 impressive!Rosenthal 的底咱是知道的:他是 Fox Sport 的 "謠指部指揮官",這種 "官" 好做的地方在於他可以給我們很多東西,但 credibility 只有兩個字:"source says" (Hell! That source could be my little puppy.)。必須認清的一點則是:並非用英文寫成的報導就比較高貴。

    回到 LA 的內部問題:撇開 Dodgers 早早撿了 Little 08 年的 club option,LA 官方與 local media 事實上只要有機會就為 Colletti 和 Little 的關係做加持,說他們兩個人像兄弟一樣心心相映,只差沒引用 Breakback Mountain 作注。而兩年來的經驗告訴我們 Colletti 是個不會說謊的人,回想起來 Colletti 沒有在 "Torre to LA" 的事炒得沸沸揚時出面制止謠言,咱也沒有起疑實在是太不應該的反應。現在事情變得更乾淨:Little 自己向 Dodgers 遞上了辭呈。

  • Little, Dodgers have parting of ways

  • Little 究竟是不是被逼退我們無法得知,但從 Mark Hendrickson、Juan Pierre、Brett Tomko 等人的案例來看,不見棺材不掉淚的 Ned Colletti 從不承認自己犯的錯卻是可以肯定的!這一回倒是他的 "超級馬吉" Little 讓了個台階給 Colletti 下;另外從官方的這篇文章多少可以瞭解到所謂的 "成者王、敗者寇" 的道理 -- 包括 Little 對 Kent 與小夥子們起衝突事件的冷處理 (laid back) 也被拿出來說嘴。

    談到 Dodger dugout 的不合睦,事發當時,個人認為教練團的處理是很好的,以下是 3rd base coach Rich Donnelly 的意見節錄:

    Donnelly says he believes in "team math" over "team chemistry" - in other words, "the math of a three-run home run."

    Little 的 comment 則是:

    "Results were responsible for the revelation of clubhouse tensions."

    "I think every team has them, We had them last year. We made it to postseason. We had them this year. We didn't make it to postseason. You don't hear about a lot of things when you're able to win and you win through them. When you lose, as a result, then they start getting blown away."

    如果說 Little 在 LA 做了什麼事賺到個人的掌聲,這就是一件!顯然教練團知道 Kent 的事件是 "effect",不是 "cause"。然而為了對付搞不清楚狀況、想乘著 Kent 的大水打漂起亂子的 local media,Little 則以靜制動 -- 認定他們一個巴掌拍不響!坦白說,Little 處理此事的方式相當值得肯定,但卻在卸下 manager 的職位後成了一項罪過,LA local media 真的一點 "正義" 都沒有...

    當然,這不代表個人不同意 Little 走人,他犯下的錯誤夠讓他丟 10 個飯碗了!只是如果 Dodgers 的 manager 從 Litle 換成了 Torre,咱會得到什麼好處?憑個人不甚深刻的記憶與認知,能想到的大概只有以下三點:

    • Torre 的 lineup 比較有道理可循
      Little 的隨性有時候可以是優點也可以是缺點,但如果說在主力球員輪休時把 Ramon Martinez、Wilson Valdez 和 Mike Lieberthal 同時排在場上,加上 Juan Pierre 與投手,Dodgers 等於是 3 個人打 8 個人,也難怪 07 年的 Lowe 會有兩場完投敗 -- 他經常碰到這種連 triple-A 等級都沒有的 offensive backup。

    • Torre 對球員的輪休較有強制性
      感謝上帝讓 07 年蹲了近 150 場的 Russell Martin 沒有支離破碎,也詛咒 07 年出賽了 162 場,拿下 519-out (NL 3rd,也是他老兄近 5 年來第一次用掉的 outs 沒有排在前兩名以內...) 的 Juan Pierre ,如果是 Torre 在掌握大局,這種事應該都不會發生。

    • Torre 對 utility man 的運用 (可能) 比 Little 靈活
      由於 Wilson Betemit 是以三壘手的身份來到 LA,原本是 SS 出身的他在 Little 的麾下幾乎不曾站過 3B 以外的地方,但 Betemit 不但不應該被定位,07 年在 Dodgers 的時期他甚至位列在 Ramon Martinez 之後。相對的,Torre 所有內野的位置都讓 Betemit 站過,不管他的上場機會是否與 Miguel Cairo 的 DFAed 有關,Torre 至少把 Betemit 的使用說明書讀得比 Little 清楚。

    但 Torre 其實並不是 modern baseball 的好教頭,我們可以整理出一些他可能會犯下的錯誤 -- 如果他成為 LA 的 manager:

    • Torre 信任 veteran 勝過 rookie
      我始終相信如果不是當初 Jaret Wright 傷得太離譜,Wang 也許會出現在 07 年的 CPBL 總冠軍戰裡,也就沒有什麼台灣之光。總的說來,Torre 對年輕人的起用和 Little 差不多 -- 不是被逼到絕路,playing time 仍然屬於 veteran 的。Believe me, that's the last thing the "present" Dodgers need。

    • Torre 鍾情有速度的球員
      比照 Tony Womack 的案例,如果 Torre 不改從前的作風,Juan Pierre 依舊會受到重用。

    • Torre 愛 "手套型" 的球員
      Enrique Wilson、Miguel Cairo、Doug Minky、甚至連霸時期的 Scott Brosius 都是很好的例子,而且這些傢伙的 bat 都上不了檯面。

      Thanks god Cesar Izturis was no longer a Dodger...

    • Torre (可能) 較重視 situational matchup
      在 NL 的 late inning 玩太多 "以左制左" 的 LOOGY 遊戲、又沒有以好的 double switch 來 cover pitcher's spot,extra-inning game 就會打得很難看 (Think TLR, and you'll see..)。話說回來,LOOGY 不是 Little 船上的貨,這是好事;現階段也無法知道 Torre 還愛不愛這一套,Plus,Torre 上一回 manage NL 的球隊已經是 12 年前的事了!

    其實,Torre 在上述 "可能發生的錯誤" 裡與 Little 的重疊度很高!另外,我始終弄不清楚在什麼情況下 Proctor 會以 RP 的身份單季投出 100+ innings?OK,雖然我們不清楚 Dodgers 會否留下 Scott Proctor,但如果 Torre 真的降落在 LA,那麼 Big-X -- 07 年也投了 82+ innings 的 RP -- 不曉得會發生什麼事。

    更壞的是:如果用 SWAT team 來形容 Torre 待了 12 個球季的 Yankees,那麼 08 07 年的 Dodgers 大概就像是只配備左輪的 90 年代初期 FBI。因此談論 manager 的帶兵其實並沒有什麼大道理:說穿了,贏球的是球員interfere 的是 manager

    在一介 Dodger fan 的眼裡,我無法想像 Torre 在 Yankees 的地位,但他如果 arrogant 到將 Yankees 時代的功績往自己身上攬、視 George Steinbrenner 的口袋與 Brian Cashman 腦袋於無物、甚至把 5M + incentives 的合約當做 "insult",誠摯的奉勸 Torre 還是別往 LA 這個火坑裡跳!After all,Dodgers 戰績的好與壞是其次,老人家的 "英名" 卻不是這麼好補救的!

    Plus,Torre 最大的功績或許在於整合所有重金請來的一級戰將,很可惜,LA 沒有重金請來的一級戰將,只有 "重金請來" 的 "不入流卒仔"。是故,Torre 的長才可能無所發揮。

    總之,對於 McCourt 與 Colletti "極可能" 去 pursue Torre 一事,個人只單純的覺得他們瘋了!很重要的一個原因是 Torre 不會是幫助重建 Dodgers 的重要人物,同時多花 5M ~ 6M 去買一個給媒體檢討用的砲灰實在看不出有什麼高明之處。By the way,如果有人認為 Joe Torre 的到來可以解決 Kent 在 dugout 造成的緊張情勢,Gary Sheffield 或許是個不錯的反例 -- 要比誰是 MLB 第一 a*s-hole,Kent 不會輸的。

    ※※※※※※※※

  • Fighting the Impossible Battle

  • Jim Baker 在這裡頭有一段 Mattingly as Manager 的部份,提到 Yankees 跳過 NY 客 beloved 的 "Donnie Baseball" 而選擇 Joe Giaradi 的原因在於經驗問題,畢竟 Donnie 在任何 level 都沒有掌兵符的歷鍊。

    如果我沒記錯,Padres 07 年由 Kevin Tower 的 front office 欽點的 manager -- Bud Black 不但只是投手教練出身,也不曾在任何 level 擁有擔任 manager 的經驗。但經過 07 年的處女航,似乎 Padre fans 對於這位由 statheads 所選出來的 manager 的表現還挺滿意?

    What happen to these sabermetricians?

    ※※※※※※※※

  • Dodgers decline options on two players.

  • 我無法相信 Dodgers 居然 decline Mike Lieberthal 08 年的 club option,這明明是極少數 Ned Colletti 在 07 年的簽對的一張好合約....

    And Ramon Martinez?C'mon...他在 Dodgers 待完一整個 07 年就已經是造孽了!

    Tuesday, October 23, 2007

    Two Tiny Tips

    在 BP 上看到兩篇文章,裡頭分別都有一小段給了我一點 (奇怪的) 啟示。

  • Joe Torre in a Box (subscriber only)

  • Steven Goldman 從各種角度來檢視 Joe Torre -- 這位長年帶領 Yankees 的老教頭。或許有很多在台灣的 Yankee Fans (or Wang Fans, so to speak) 會對 Torre 有些不捨,不過 manager 充其量不過是一種 necessary evil,而且個人不相信 manager 能幹出什麼大事!簡單一句:如果 Torre 跑去帶 Devil Rays 或 Royals,也不會自動讓這兩支球隊擁有 playoff caliber,實質問題則在於各隊想花多少錢去買個給媒體檢討用的砲灰而已。

    以一介 Dodger Fan 而言,對 Goldman 所寫的一切一切其實都只能 "嗯嗯..." 的點頭稱是而已,不過下面的這段倒讓人有些聯想:

    Torre also hated to use his closer in a tie game on the road, thinking he had to save him to protect a lead he might never get. This led directly to the disastrous decision to use Jeff Weaver instead of Mariano Rivera in Game Four of the 2003 World Series (a move Torre never regretted). Despite this, Torre’s Yankees record in extra-inning road games (40-30) was actually better than his extra-inning record at home (33-35).

    延長賽 (extra-inning game) 的問題不久前我才向 水瓶兄 請教過,當然 MLB 的 managers 多半會在延長賽時把 RP (後援投手) 從最好的開始指派,不過我始終想不出這是什麼因,經指點後才發現理由比個人想像得要簡單太多。

    即便如此,Torre 在客場延長賽較為成功的案例不代表他在這個環節上對 RP "非主流" 式的調度是正確的,不過我們可以回頭看看數字怎麼說:首先參考 Tango 的 late-inning 1-run WE (Win Expectancy) Matrix,以 Markov Chain 所模擬出來的結果在 tied game 的 Top / Bottom 9th,主隊的勝率是 .500 / .634。

    要知道在任何一個 extra-inning 裡對 WE Matrix 來說都是 9th inning 的重現,換句話說即便是到了 10th、11st...的 Top / Bottom,主隊的勝率都是 .500 / .634。那麼在延長賽裡:

  • 主隊如果能將 tied 的狀態由 Top 維持到 Bottom,就能掙得 .134 的 WE。

  • 客隊如果能將 tied 的狀態由 Bottom 維持到下一個 Top,同樣掙得 .134 的 WE。

  • 現在我們考慮獲勝的問題:主隊的獲勝條件是他們需要在延長賽的某一個 bottom 拿下 1 分,這就是說主隊的 RP 大約可以為球隊先掙得 .134 的 WE,剩下的 .366 (1 - .634) 必須由打擊補上,這很單純。

    客隊呢?假使客隊在延長賽的某一個 Top 拿下了 1 分,根據 Tango 的 WE Matrix,這會給他們 .806 的勝率,這即是說在領先 1 分的情況下,客隊必須由 最後一位 RP 來補上 .194 的 WE

    換句話說,客隊若在 tied game 裡用上了 closer -- 也就是球隊最強的 RP,最終可能替球隊掙到的 .134 WE 小於 .194 -- 將球賽 "關門" 的 WE,也因此客隊的調度其實比主隊有選擇性,manager 的確可以考慮將他的 closer 用在更要緊的地方。

    不過如果這個 "更要緊的地方" 根本來不了 -- 也就是在某個 tied 的 bottom 就已經被做掉了怎麼辦?Tango 的 RE Matrix 在這個環節上也給了些 idea:以 RPG (Runs Per Game) 4.7 為例,Base empty、0 outs 時的 R0 是 .717,這代表的意思是:在 4.7 的得分環境下,壘包淨空無人出局 時,一位 league average 的投手主投一局無失分的機會是 .717

    以此類推:一位 RA 3.5 的 RP 與 RA 2.5 的 closer,他們主投一局無失分的機會分別是 .769 與 .823,差距 不到 6%

    假設 RA 2.5 代表球隊裡的 closerRA 3.5 則代表牛棚裡的 3 號牛或 4 號牛,那麼客隊的 manager 究竟是希望在 .134 的 WE 多加 6% 的保險?亦或是小賭一下,尋求將 6% 的保險加在 .194 的 WE 上呢?這似乎有商榷的空間。

    這裡個人只是舉例提供另一種在延長賽調度投手的觀點,還沒有足夠的証據給出一個正確的答案,畢竟要挑毛病的話,首先就是這裡僅僅考慮了 1-run differential 的情況,麻煩的首要是定義完備的機率空間。但無論如何,這似乎是個值得看下去的題目。


    ※※※※※※※※

  • Heroes and Goats (subscriber only)

  • 這篇算是 Joe Sheehan 為 ALCS 所做的注,沒什麼特別的點子,就像我們不需要知道為什麼 Tribes 落敗的理由,反正 "打包票" 找不到一個充分的理由...

    Sheehan 在其中一段提到了 Travis Hafner:

    Travis Hafner: I was asked repeatedly in chat last night, “Remember when Travis Hafner could hit?” He was awful against the Red Sox, .148/.207/.296, capping a truly disappointing season, and his strikeout against Jonathan Papelbon in the eighth was a key moment in the game, the point where the Indians might have clawed back in, especially had they been able to make Papelbon work hard.

    確實,與 06 年 MVP caliber 的成績相比,Hafner 07 年 .836 的 OPS 確實不像話,雖然比起 ALCS 的 .503 好很多。

    而個人則突發性的想到一個問題:由於 ALCS 打了 7 場,那如果把 Hafner 07 年的 152 場出賽做 every 7 consecutive game 的 summary,他會有少個比 ALCS 糟糕的 7-game session?依 Hafner 在 07 年的 stats,我得到了 145 個 7-game session,而其中一共有 14 sessions 的 OPS 小於 Hafner 在 ALCS 裡的表現。大致的分佈範圍則如下所示:

    OPS RangeTimes
    0.2 ~ 0.32
    0.3 ~ 0.43
    0.4 ~ 0.59
    0.5 ~ 0.614
    0.6 ~ 0.722
    0.7 ~ 0.823
    0.8 ~ 0.911
    > 1.0034

    其中最大值是 1.679、最小值是 0.205,median 則是 .787。

    這倒不足以說明 Tribes 碰上 "07 年 ALCS 的 Hafner 的情況大約是 10% 的機會" 這件事,畢竟一季的資料量並不具備太多的預測能力。合理的推測 -- 仿 Marcel 的方式,個人或許應該取不同的 weights 對 Hafner 的 05 ~ 07 三季裡做 every 7-game session 的統計,只是 weight 該如何取?又該如何 apply 到 data?這是需要考慮的方向。

    Saturday, October 20, 2007

    Buy the Translations

    在 ALCS 經過 3 場比賽之後,個人開始關心 Dice-K 的處境。

    Dice-K 在整個季後賽的表現、或者說進入 8 ~ 9 月的 late season 都像是在迷走,也讓這位日本投手拿到不少的非難。在 Red Sox 硬是把 series 推到第 7 場的情況下,如果 Francona 依舊按表操課 -- 排出 Dice-K 主投第 7 戰,且不論結果為何,媒體的反應都讓人期待。話說回來,Dice-K 有義務承擔這樣的責任,他畢竟讓 Red Sox 出了個 51M posting fee 的天價,鎂光燈與顯微鏡自然必須打在他身上。

    個人相信 Theo 心裡對 bid Dice-K 一事是有底的,即使 Dice-K 的 agent 是 Scott Boras,但 posting system 的規則就是得標的球隊擁有 "獨占交涉權",這多少制止了 Boras 的漫天叫價 -- 即便他抱怨最終簽下的合約 (6-year 52M) 與他心中的差距 "比太平洋還寬";相同的道理,我可以想像為什麼 Brian Cashman 對 Boras 明言 "若 A-Rod 選擇在 07 年 offseason 時 opt out,Yankees 就不會考慮把他帶回來" -- 聰明的 GM 在面對 Boras 時不能留太多的 "洞" 讓他去鑽。

    回到 Dice-K 的話題:Red Sox 實質上等於花了 103M 去綁 Dice-K 6 年,大約是 17.2M 的 annual,雖然 posting fee 的部份並不用計算在 luxury tax 之內 (而據瞭解,51M 美金、相當於 60 億日圓的 posting fee 實際 Seibu Lions 拿到手裡的是 36 億),但整個 MLB 裡 annual 超 17.2M 的先發投手只有兩個人:Roger Clemens 與 Barry Zito。

    Zito 不是個好例子,因為 present Zito 的是個王牌大騙子,簽 Zito 的人卻是王牌大呆子,不過讓 Theo 出一個僅次於 Clemens 的價碼給一個初來乍到的先發投手,單憑 "guts" 是不夠的!

    BP 曾在 Dice-K 這個環節上做過一些 stats translation:

  • Matsuzaka Madness

  • 雖然寫的人是 Christina Kahrl,但做 translation 的人還是 Clay Davenport,這名字想必玩數字的朋友並不陌生。當 Dice-K 的新聞炒得沸沸揚的時刻,Clay 這篇文章 -- 提到他 translates Dice-K 03 ~ 06 的表現到 MLB 之後,同一時期只有 Roger Clemens 在他之上 -- 讓人加深了對 Dice-K 的期待。

    但 07 年的 Dice-K 只交出了 204.2 inning 與 4.40 RA,以 4.8x 的 league average RA 相比,Dice-K 不過是 1-win above average 而已,莫說是與 03 ~ 06 年的 Clemens 相提並論,做為一個稱職的 No.2 都很勉強。

    Theo 做了一段很白話的說明:

    "I think this time next year we can look back and say this is a Josh Beckett 2006 year for him. Josh came to the American League for the first time and learned some things along the way, went home during the winter, made some adjustments, and put it all together."

    除非是台灣的政客才會去翻別人以前的舊帳,所以 Theo 這段話是錯是對在末來想是也不會有人去追究。但在我們正視 Dice-K 的 stats translation 結果前,我認為一件很重要的事可能被忽略:Dice-K 在 NPB 的強悍讓他像是在另一個世界裡投球

    我的意思是:NPB 時代的 Dice-K 可能是 100 percentile 的球員,NPB 大多數的球員完全跟不上他的腳步,這有點像是 Dice-K 是個成棒選手,卻被放在青棒隊裡去教訓那些小鬼們。如果真的要正確的去 translate Dice-K -- 基於他是 "right-tail" 的球員 --在 NPB 的成績,"水準差" 可能必須要考慮,而在 Davenport 細說他的方法之前,我們完全不用把 translation 的結果看得太認真,那只是一個不知道容錯 level 的 estimator 而已!Moreover,這也不是個 "I give you, and you'll like it" 的狀況。

    那麼關於日前 竹板凳 translate CCF (陳金鋒) 07 年在 CPBL 的 EQA 去 MLB 而得到 0.29 的高分一事又該怎麼看?Ottocat 發表了他對此事的 看法,其中還有 Ayukawayen 的回應又說明了一些事實。

    原則上我不認為 竹板凳 的計算是有誤的,問題是我們如何 back 這個 0.290 的結果而已!

    CCF 在 07 年相對於 CPBL 的 EQA 是 .370,這是什麼樣的一個水準?以 MLB 來比喻,這是 Barry Bonds 在 00 年時 .306 / .440 / .688 的 "三圍" 所算出的結果,我們可以很安全的說 CCF 是 CPBL 的 Barry Bonds,在目前的環境裡,幾乎無人可出其右。

    但 CCF 畢竟在 PCL 時代高於 league average,回到 CPBL 的他,等於是把一個 3A 球員丟回 High-A 或 Low-A 的環境,對 CCF 而言,他甚至油門不用踩到底就 suppose 可以打出很好的成績。那麼對整個 CPBL 而言,一個 right-tail outlier 的存在,translate 出 .290 的 EQA,要做為他夠格重回 MLB 的証據,這個 ground 是不夠 solid 的。

    另一個看法:H. Matsui 在 NPB 時代也被評為 NPB 的 Barry Bonds,他的水平在 NPB 要換算出 .370、.380 的 EQA 想必不是太難,但是他來到 MLB 後的 3、4 年間大約都只維持在 .290 上下 -- 幾乎打了個 20% OFF。OK,如果一個 NPB right tail outlier 水準的球員,身在一個大約是 triple-A 水準的環境,來到 MLB 要下殺 20% 的 performance,那麼換成是在 CPBL -- high-A / low-A 的 CCF -- 這位 right-tail outlier 回到 MLB 要下殺多少?

    從 竹板凳 的 work 裡,我們能得到的唯一訊息是 CCF 07 年在 CPBL 真的打得很棒,但 translated EQA .290 不代表他能 play solidly in MLB 的証據。但數字本身我相信是沒有錯的,錯是在如何解讀而已。

    Saturday, October 13, 2007

    Difficulty of Predicting Playoff

    在進入本文之前,先做一個道歉聲明:事情發生在個人在上一篇 Essence 裡關於 "WPA 呈現 model reality 的忠實程度" 的那一段。

    以 WPA 來談論 model reality 其實是 "完完全全的廢話"!因為 WPA 就是拿勝場分配給每一位 contribute 的球員,它非得具有 model reality 不可的!這是 WPA 的 "spec",嚴格說來,不是長處。

    這是個人的失察,謹此致歉,接下來進入本文。


    You can be a playoff columnist, too!

    最近在 THT 上有一系列 "Why the XXX lose to the YYY?" 或是 "Why the XXX will beat the YYY?" 的 playoff column,對個人而言,這有點像是每天早上吃早餐一樣的 routine。球季到了 10 月份,這類的文章到處都讀得到,而且內容都不外乎把兩支對陣球隊在該季的 "stats" 或是 "advanced stats" 拿出來比較一番。對此,我們可以問以下幾個問題:

  • Can't you dig out those (advanced) stats and line them up by yourself?

  • Is that all we can do? Or Can we do it better?

  • 如果第一個問題的答案是 "Yes" (我相信它也應該是 "Yes"),你我都可以做 playoff 時期的 columnists。

    在思考第二個問題前,我們先想一想每年季初有那麼多的 prediction system 把結果公布在網路上讓 fantasy baseball fans 參考,他們是怎麼出發的呢?以 Tango 的 Marcel 來例,它必需擁有球員前 3 年的資料、取不同的 weighted 做為預測的基準,一般來說,考慮 3 年的資訊 "大約" 足以將球員真正的能力顯現出來 (or regress toward the mean, so to speak),也才能保証預測的準確程度。

    總而言之,資料越多,利用此間的相關性會使預測結果更可靠,這也是為什麼我們說統計學最重要的三件事就是 sample size、sample size and sample size。

    即便如此,莫說是 Marcel,PECOTA、Zips 等等 -- 利用多年統計資料的預測系統 -- 都不見得會讓所有的人買帳,那麼回過頭來,球員們 1 season 的 stats 在 upcoming playoff series 裡會有多大的準確程度?有多好的預測能力?

    By the way,依這條路線往前跨一步:咱們為什麼要把 "特定投手與特定打者的對戰成績" 當一回事?David Ortiz 在 07 年對 Wang 是 7/13、OPS 近 1.600,這當然也不足以得到 "Big Pappi owns Wang." 的結論,不是嗎?

    說穿了,用 1-season stats 做評述並不是一個 solid ground。


    Probability & statistics

    這裡很簡單的談一下 機率 (probability) 與 統計 (statistics) 的差別,以白話文來表達,這兩樣東西其實是 "倒過來的"!機率 是探求一個分佈 (distribution) 的行為與內涵;統計 則是利用手中的資料去推導出可能分佈的母數 (parameter)。

    對於一場比賽的結果,它必然是 zero-sum game -- 一定有一方要被 "掛掉" -- 和丟一個銅板只會出現正面與反面是一樣的意思。正確的說,一場比賽其實就是一個 伯努力 事件 (Bernoulli trial),模型遵從 伯努力分佈 (Bernoulli Distribution),母數則是 P,或者說就是對戰時某球隊的 WPCT。

    統計學要做的就是估計 (estimate) 這個母數 P。



    The Log-5 method

    Bill James 曾經提出一個叫 Log-5 的方法,它的目的就是在計算兩支球隊的對戰勝率,它的描述是這樣的:

    Pr(A beats B) = X / Y
    X = [ AW% - ( BW% * AW%) ]
    Y = [ AW% + BW% - ( 2 * AW% * BW% ) ]


    Where:
    Pr(A beats B) represents the probability A beats B.
    AW% represents the WPCT of team A.
    BW% represents the WPCT of team B.

    原則上 Pr(A beats B) + Pr(B beats A) = 1,這一點是沒有疑問的!換句話說,這裡的 Pr(A beats B) 其實就是上一段的 伯努力分佈 裡所提到母數 P。

    以 07 年的 NLDS -- D'Backs VS Rockies 為例,D'Backs 的 WPCT 是 .556 (90-72);Rockies 則是 .552 (90-73),套進 Log-5 method 的結果:

    X = [ .556 - ( .556 * .552 ) ]
    Y = [ .556 + .552 - ( 2 * .556 * .552 ) ]

    Pr( D'Backs beat Rockies ) = X / Y = 0.504
    Pr( Rockies beat D'Backs ) = 1 - 0.504 = 0.496

    可以發現這個結果和丟一枚公正銅板的結果差不會太多。有閒的朋友不妨用 Strength of Schedule 的方式修正兩隊的 season WPCT 再來做 Log-5。

    話說回來,個人在這裡介紹 Log-5 並不代表我很瞭解它,這和 Pythagorean Formula 一樣讓人看不出式子的內涵 ("內涵" 的意思是 -- 比方說 Raw Eqa -- 一看就曉得它是由 OPS 修正而來,分子的部分甚至是一種 "wild runs" 的表現),但個人也無法找出更好的方法來估計 P。



    How much does .504 mean to us?

    現在有了一個也許不是太讓人滿意的 Log-5 來估計母數,我們要回頭看看 伯努力分佈 的行為 -- 也就是它的 期望值 (expected value) 與 變異數 (variance),想看正式一點的網友不妨參考 Wiki 的說明

    EX = P
    Variance = P * ( 1 - P )

    我想 期望值 的部份不用多加說明,至於 變異數 的部份就稍微帶一下。

    變異數 的意義是各 "觀察值" 與 "期望值 差距的平方和的平均",用白話文來講,變異數 就像是去 measure 結果的 "uncertainty",如果與 期望值 離得較遠的值越多,變異數 自然越大,也就是說現有的 母數 (P) 與現有 分佈 (Bernoulli) 去預測結果,發生 miss 的可能性也越大。而關於 伯努力分佈 的行為,當 P = 0.5 的時候,它的 變異數 會到達最大值,等於有最大的 uncertainty。

    Does this ring any bell to you?

    是的!如果 Log-5 的估計結果是準確的,D'Backs 與 Rockies 的對戰的 uncertainty 其實就快要接近最大值了,也就是說誰勝出都不值得意外!另一方面,變異數 的行為也間接說明所謂先發投手的 "consistency" 對球隊的勝利其實沒有太多實質的貢獻,overall RA 說明了一切,而在 RA 相同的前提下,表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。

    當然,如果我們想探究一個 series 而非單一場比賽,一連串 伯努力事件 會構成一個 二項式分佈 (Binomial Distribution),有興趣的朋友請自行玩玩看,這裡不多談。

    到這裡應當已經 somehow 說明 playoff 的結果為什麼通常會很出人意表、或者說要給出一個可信的預測有多麼困難。我們總是說 "May the best team win",但是對 MLB 的 10 月份來說,這句話其實是很奢侈的!World Series Title 給的是 10 月份最熱的球隊,不是最好的球隊。



    Back to the question...

    Nate Silver 在 06 年與 BBTN (Baseball Between the Numbers) 裡都提到 secrete sauce 這個東西,個人也曾經 小小的談過,到了 07 年,原本在 BP Statistics 頁面佔有一席之地的 secret sauce 卻只剩下一篇 unfiltered 的描述。當然 secret sauce 有它的道理,但也讓我提醒一下:在 Nate 所設計的 model 裡,EqK9、FRAA 與 WXRL 與 playoff score 的 correlation 大約只在 0.2 上下,小得可憐!這就像是一根小草 -- 抓在手中毫不起眼,卻又不能輕易放掉。

    不過這裡也不至於帶出要 "拿球員 3 年來的資料來做基底以預測他們在短期比賽的表現" 的結論,我想說的是:對於 playoff,猜對或猜錯其實都不值得說嘴,因為不管有多少的 background 在背後支持我們的預測,它都和瞎猜差不多。

    Can we do anything better? Well, maybe not now.



    ※※※※※※※※

    Dodger Fans 最敬愛的 Ken Gurnick 趁著 playoff 時期在官網興風作浪了:

  • Pierre might shift in the outfield

  • 所以官方認為 Pierre 的問題是 "defensive issue",他的 arm strength 是 below average (try "below my younger sister"...),所以要把它往 corner 移動,這代表什麼呢?

    • Ned Colletti 在簽 Pierre 的時候不曉得他是 sissy arm,他以為 ML 級的 OF 的肩力和他 "打X槍" 的力道差不多就行了。

    • 顯然 Dodgers 還是沒搞清楚他們的問題在哪裡,07 年的 Dodgers 明明就是 offensive ineffectiveness 拖垮的啊!

    • Pierre 如果真的移到 LF,很可能代表 Ethier 08 年又要失業,不過我很難相信 Dodgers 還會繼續花錢去搶 Andruw Jones。

    我奇怪的是像 A-Rod 這麼好的球員,在 NY 稍有閃失,媒體就把他弄得剩下半條命;Pierre 在 LA 比一條熱狗的價值都不如,卻仍然活得好好的?換做在 NY,他還有命在嗎?或者說,LA 的 local media 的良心都到哪裡去了呢?

    So, Ken told us that Pierre might shift in the outfield? Try shift to the trash can, asshole...

    Thursday, October 04, 2007

    Essence

    早在 07 年季初,個人曾在某個 forum 留下了 NL West 的排名預測,順位是這樣的:

    1) Padres 2) D'Backs 3) Rockies 4) Dodgers 5) Giants

    當然有不少人覺得個人的預測太離譜,Dodgers 似乎不太可能排到第 4 名,我也承認自己是用最壞的打算來考慮 (也沒想到竟然真的那麼壞...Kudo to Little)。至於 Padres 與 D'Backs 的部分,個人的回應大約是這樣的:

    把 Padres 排在 D'Backs 前面是因為 Padres 的 front office 太優秀,要不然 D'Backs 會是個人 07 年於 NL West 的首選。

    現在看來,個人並沒有錯得很過頭,D'Backs 確實跑得很前面;如果 Dodgers 在 late season 對上 Rockies 不是一個 7-game swept -- 只要 Dodgers 拿個 2-win -- Padre Fans 享受 playoff 就是在球場裡而不是電視機前;當然,沒有比命中 Dodgers 的排名更讓人愉快的了,或許我該回頭翻翻當初在 這本書 上所留下的 comment 的 "正確度" 大概有多少。

    不過 D'Backs 獲勝的 "模式" 倒不像是個人季初的評估:當時我以為 Big Unit 會與 Webb 組成 NL West 最強的左右護法;prospects -- 像 C. Jackson、C. Quentin、S. Drew..etc 會把這支球隊拉著一飛沖天,顯然事情不是我想的那樣。

    基於在 8 月中的 work 的 inspiration,我們來看看 NL 進入 playoff 球隊的 "本質" 何在,在這裡利用的是 WPA 與 BRAA。首先是 D'Backs VS Cubs 的部份:

    ARI V.S. CHN
    TypeWPABRAADelta
    B-1.21 / -2.16-46.83 / -9.173.473 / -1.243
    S2.73 / 3.4511.75 / 33.111.555 / 0.139
    R7.48 / 2.7119.62 / 38.855.518 / -1.175

    其中 B/S/R 代表 Batting / Starting Pitcher / Relief Pitcher、respectively。至於 "Delta" 則是利用 WPA - (BRAA/10) 的結果;數字資料於 slash ("/") 左側的是 D'Backs、右側則是 Cubs。比方說 Cubs 的攻擊火力 (B 列) 在 WPA 的部份是得到 -2.16、BRAA 則是 -9.17。

    首先可以注意到 WPA 呈現 model reality 的忠實程度:我們把 D'Backs 在 B/S/R 的 WPA 加總,得到的結果是 9.0,也就是說 D'Backs 07 年的總成績是 9-win above average,換算成實際勝場數就是 81 + 9 = 90 (Wins),因此我們說 0.5 WPA 其實就是 0.5 Wins Above Average 或是 actual 的 1-Win。

    其次,把 Delta 這個數字拿出來做參考的原因在於這個部份會 "somehow" 與 "clutch" 有關,畢竟在 count statistics 下 10-run equals 1-win 的法則是適用於現今的 MLB 的,但相信在上述表格裡裡不難發現 D'Backs 的 BRAA 是 -46.83 (or 4.7-Win) 只耗了他們 -1.21 的 WPA;On the contrary,Cubs 的 BRAA 僅僅 -9.17,卻轉換成了 -2.16 的 WPA?顯而易見在 regular season 裡,D'Backs 在 high-leverage situation 下的打擊表現是遠比 Cubs 要好的。

    不過之所以用 "Delta" 而不是 "clutchiness" 的原因是由於 BRAA 有 situational 但沒有 context 的因素,比方說球隊得到 > +6-run 的領先,到了第 9 局時即便連下 10 城也不會對 WE (Win Expectancy) 產生 > 0.01 的 fluctuation。換句話說,WE 給了在 oh-so low leverage situation 下表現較好的 batting performance 一些 penalty,situational 的 BRAA 並不會依 context 而變動,所以這裡的 Delta 不是一個良好的 clutchiness 定義,而是一個參考用的 quantity。

    繼續檢視下去就會發現 D'Backs 在 B/S/R 都相當的 "clutch",但 clutch situation 的發生時機並不能控制、更何況發生了也未必拿得到 "bonus WE",因此 D'Backs 其實除了一個 CYA 以外,對 Cubs 而言其實沒有太大的優勢。概括而論,D'Backs 的本質和 Cubs 算相近 -- 傾向守優於攻,低比分 close game 發生的機會看來不小。另一方面,在打擊部分的 "clutch" 也許可以說帶了些運氣的成分,但投手的調度方面就比較與 manager 的決定有關聯性了,至少從 BRAA 與 WPA 的差距來看,Bob Melvin -- 不論有意或無心 -- 做出了不少的 "正確決策"。

    至於 Rockies 與 Phillies 的部份:

    COL V.S. PHI
    TypeWPABRAADelta
    B9.49 / 10.8187.3 / 126.950.76 / -1.885
    S-1.19 / -3.6714.7 / -36.54-2.66 / -0.016
    R0.19 / 0.8633.74 / -15.6-3.184 / 2.42

    典型的 Muscle VS Muscle,個人實在不看好這個組合的勝出者,話說回來,Phillies 的投手資源似乎還是比 Rockies 豐厚一點就是了。

    原則上兩個對戰組合裡都是本質相似的球隊碰在一起,而沒有什麼 "矛" 與 "盾" 之爭,不過這仍然有它的精采之處,plus 07 年 4 個 playoff spot 都沒有 "連任" 的球隊,是故雖然 10 月看不到 Dodgers,但比起 06 年,這一回的 playoff 會讓我比較有興趣。

    個人看好 D'Backs 代表 NL 出席 World Series。

    ※※※※※※※※

    假設你是客隊 manager,在 extra-inning game、比分平手,某局進攻裡,你的 lead-off hitter 上壘了,這時候你會怎麼做?

    30 個 ML 的 managers 裡大概有 29 個會叫下一個打者擺短棒 -- 除非輪到 A-Rod 或是 Albert Pujols,而剩下的那 1 個叫 Bud Black。而 Black 其實幾乎成功,在 07 年 NL 唯一的 163rd game 裡,Top 13th,lead-off 的 Brian Giles walked,下一位打者 Scott Hairston 轟出超前的兩分砲。

    我想,Black 當天如果不是 "忘記下達 SH 的戰術",他也許真的是個當 manager 的料,並不像世論所言 "投手出身的人不適任 manager"。另外,能夠看上 Black 的 Padres front office 也不是個省油的燈,不過這一點我們早就知道了。