Wednesday, July 18, 2007

Win Expectancy Primer

人在 Padres 做制服組的 DePo 最近又有了 remarkable comment:

"Part of the fun of this game is that we'll never figure it out. We're never going to get it right. What we try to do is become a little less inefficient in our decision-making. That's Moneyball. It doesn't mean we're going to make the World Series every year. Hopefully, we will be competitive every year. It's no guarantee for success."
-- Paul DePodesta, Former Dodger GM

Again,看到這種 comment 只是讓人充滿痛恨而已!Dodgers 真正資敵最大、最失敗的 move,應該就是放掉 DePo。

我們曉得 Moneyball 或大部份的 sabermetrics 談論的都是 GM 的決策 (decision-making),難道這代表 sabermetrics 沒有辦法 cover field manager 的決策嗎?其實也不盡然,以 Win Expectancy 為 ground 的理論正是拿來檢視 manager 最好的工具,話雖如此,請務必記得 sabermetrics 只是給我們一個方向,而不是成功的保証。

在開始談 WE (Win Expectancy) 之前,我們先回過頭來看看 WE 的表兄弟 RE (Run Expectancy),這裡有一個 Tango 所做出來的 RE Matrix 連結,截取下面這個部份做個說明:

RPGBaseOutsFREQRER0R1
2Empty0.259.222.849.104

這段的意思是:在每場比賽平均得分為 "2" (RPG) 的前提下,每局發生 "無人出局 (out)無人在壘 (Empty)" 這個情況的機會 (FREQ) 是 0.259;而球隊的期望得分 (RE) 在此情況下是 0.222;到該局進攻結束後得 0 分的機會 (R0) 是 0.849、得 1 分的機會 (R1) 則是 0.104....and so on。

換句話說,在指定了 RPG (Runs Per Game) 之後,每一局進攻裡都有 24 個不同的 states ( 3 種出局數 * 8 種壘包組合),每一個 state 有其對應的 RE,球賽的過程就是在這些 state 之間做 transition。打個比方,以現在 ML 約 4.5 RPG 的情況下,"0-out、base loaded" 的 RE 是 2.34,不管攻擊方是用 3 支連續 single 或 3 個連續 BB 來達到這個狀態並不重要,重要的是一旦到達就有 2.34 的 RE。

WE Matrix 就沒有像 RE Matrix 這麼單純,因為 WE Matrix 必需考慮 RD (Run Differential) 與比賽進行的程度 (inning),所以 WE Matrix 比 RE Matrix 多出了兩個維度,光是 Top 1st 的 WE Matrix -- 僅考慮 RD 自 -6 ~ 6,就有 13 * 24 = 312 個 states 在做 transition (但並非每個 state 與 state 都是 mutually accessible)。Theoretically,WE Matrix 的 "size" 可以是無限大的。

Mathematically,談到 state 與 state transition -- WE 或 RE -- 背後的 model 其實就是 n-state Markov Chain 的型態;它甚至還有點像是個人在 這篇文章 裡提及由 Copenhagen 學派發表的 "波函數" (wave function) 模型,不過這裡既沒有沒有要再回頭談量子物理、也不打算說明 Markov Chain 的 simulation,只是稍微提一下模型背後的 fundamental grounds。

也許會有人覺得有了 RE Matrix,為什麼還需要 WE Matrix?這道理其實再容易不過:畢竟同樣是落後一分,bottom 1st 和 bottom 9th 下,Home/Road team 的 WE 將會有很大的差距。很顯然的,如果僅是 1 分差的 game,bottom 9th 的 outs 會比 bottom 1st 要 critical 許多,RE 說不出這其中的差別,但 WE 可以;另一方面,由於 field manager 在下決策的時候必然是想從某一個 state 轉換到另一個 state (e.g. 下達 SH 使 0-out、一壘有人變成 1-out 二壘有人),那麼 WE 可以用來評估 field manager 的策略下達是否合情合理。

在 internet 上的可得資源裡,沒有人提供足夠的 WE Matrix 讓我們檢視,但這裡有一版由 Tango 所提供、在 late-inning、RD 於 -1 ~ 1 之間 的 WE Matrix,我們姑且拿這個來玩一玩。

參考以下的幾個狀況:

A. Bottom 10th,RD = 0、主隊無人出局攻上一壘

Strategy:主隊執行 SH

InningRDOutsRunnerWE
Bottom 9th001--0.715
01-2-0.703
011--0.637

首先要說明的是:在 WE Matrix 裡,extra-inning game 的任何一個 top 或 bottom 都可以視為 top 9th 與 bottom 9th 的 duplicate,因此雖然狀態寫的是 bottom 10th,但我們依舊可以使用 bottom 9th 的 WE Matrix 來做決策分析。

在節錄的 WE Matrix 中,首列是起始的狀態;第 2 列是 SH 成功的狀態;第 3 列則是 SH 失敗的狀態,你可以發現一個成功的 SH 會讓你的 WE 向下修正 0.012 (not much though!),因此即使在 Bottom 10th,SH 不是被 prefer 的策略。

RE Matrix 也支持這個說法:由於是 bottom 10th,任何得分的情況都會讓比賽結束,refer to RPG 4.5、無人出局 1 壘有人時,攻擊方得分的機會是:

1 - P( R0 | RPG = 4.5 ) = 1 - 0.578 = 0.422

而一個成功的 SH 後,攻擊方得分的機會成為 1 - 0.604 = 0.396,所以在 A. 命題下,SH 並不是一個值得 perform 的策略。

--------

B. Bottom 10th,RD = 0、主隊無人出局攻上二壘

Strategy:主隊執行 SH

InningRDOutsRunnerWE
Bottom 9th00-2-0.807
01--30.830
01-2-0.703

這裡就有點意思了,由於一個成功的 SH 可以讓 WE 昇高 2.3%,因此執行 SH 的空間就出現了,不過 SH 也有所謂的成功與失敗,在 B. 命題下,field manager 必須考慮他所派出來的 bunter 能夠 maintain 一定的 SH 成功率才行,為求簡單,我們設定原本在二壘的跑者於 SH 點失敗的情況下不會亂衝而死在三壘前。

那麼假設這位 bunter 的 SH 成功率為 P,那麼 P 必須滿足以下這個式子才有執行 SH 的意義:

P * 0.830 + (1-P) * 0.703 > 0.807

解出上述的不等式,得到 P ~ 81.89%。

也就是說如果 bunter 有大約 82% 的 SH 成功率,SH 在命題 B. 之下是可以執行的,只是這樣的 bunt 可以讓攻擊方增加的 WE...憑良心講並不多。

--------

C. Top 12nd,RD = 0,客隊攻佔二、三壘,一出局

Strategy:主隊執行 IBB

InningRDOutsRunnerWE
Top 9th01-230.281
011230.278

很多人或許會覺得 IBB 是一項自殺的策略 (除非 batting behind 被 IBB 的打者很糟),也許 WE 的結果看起來也像是那樣 -- 因為主隊的 WE 在 IBB 之後倒退了 .003。

不過這裡的結論不該這麼下,畢竟我們所使用的 WE Matrix 是利用 Markov Chain 所得來的結果,它是否能準確到小數點後 3 位是有待商榷的!具體的說,如果要準確到 0.001,那麼需要給到 1M 的樣本數,以每場比賽 40 個 state transitions 計算,那就是 25K 場比賽的量,坦白說有點誇張。

因此我們寧願做出以下的結論:在命題 C. 之下,這個 IBB 的執行與否並沒有絕對的對錯!重點在於還不到 2-outs,同時 3 壘有跑者,IBB 的執行與否其實並沒有那麼 critical。

--------

較為完整的 WE Matrix 在 Tango、MGL 與 A. Dolphin 合著的 "The Book" 裡有提供,這個 WE Matrix 後來也成為 Fan Graphs 配分 WPA (Win Probability Added) 時的重要依據,個人以為 WPA 最大的用處在於 "評斷 RP 的表現" -- 因為 RP 上場的時機 -- 尤其是 situational RP -- 裡,10-run 為 1-win 的法則通常不適用。

應該有不少人曉得 WE Finder 這個工具,即便如此,不代表我們不需要 Tango、MGL 等人的 WE Matrix,畢竟 WE Finder 只是單純的 empirical data,它無法涵蓋所有真實的情況,比方說在 Top 9th、主隊 1 分領先下的 WE:

RunnerOutsWE FinderThe Book
-2-00.6690.631
--300.6490.544

就比賽層面來看,"The Book" 的數字合理許多;WE Finder 在上述情況則表現不出差別,原因應該很好理解:因為 Top 9th、0-out、客隊落後 1 分攻上 3 壘的機會是少之又少,因此造成 WE Finder 在 sample size 不夠的前提下出現了有些 unexpected 的結果。

BP 的 WE Matrix 就更有意思了,它居然只提供單年的資料,以致不少欄位出現了 WE = 1.00 的 "決定性" 結果,我不明白收費的 BP 為什麼提供如此無用的東西...

不過擁有完整 WE Matrix 的壞處就在於:很難讓人繼續去相信那些 field managers,如果有多事的 sabermetrician 想出合理的方式來計算 managers 的 WPA,能得到 "正分" (positive) 的,恐怕是沒有...

12 comments:

壇上大和 said...

sabermetrics...,我對這方面的了解實在很少...。
(這似乎印證了我是社會組的...XD)


老大覺得從哪邊下手比較好...?
BP的那些數據嗎?

雖然我也同意數據是棒球的一部份...,但我認為他頂多只佔棒球的30~40%左右而已...,棒球真正的熱趣,還是在當下的感覺...。(像去年某場超級連發HR大逆轉...,讓人久久無法忘懷那種震撼感!)

個人陋見...,也許老大你覺得我很無知吧...。XD

Max said...

Just a weird thought...
Does it mean that we can have computer coaching the games?

Morikawa said...

To 大和,

你知道嗎?那場在 Dodger Stadium 的四連轟一直到我聽到 Scully 爺爺的那句 "I forgot to tell you, the Dodgers are in first place" 的時候,我才笑出來。結果那句話成為了那次不可思議的四連轟的記憶。

其實如果不喜歡數字就不用勉強自己去研究,畢竟對我來說,以 GM 的角度來看事情,才是 MLB 對我最大的樂趣。

--------

To Max,

Not really, I'd rather say the WE matrix is a solid ground for field managers to make their decision.

Say, if those field managers don't know how to do the right thing, what's the difference between them and monkeys?

小弟姓黑名貓 said...

請問一下您4月3號發的文章裡提到了"某台稱(sabermetrics)為:賽伯計量學" 是在說我嗎? 我的blog在六月底才開張呢。

Morikawa said...

黑貓,

或許你不曉得,以個人的見聞,最早丟出 "賽伯計量學" 一詞是台灣的 ESPN,但這不是因為 MLB,而是替以 "ID 野球" 聞名的 野村克也 和他的東北樂天隊打廣告...

可惜的是,ID 野球和 sabermetrics 根本就毫無關聯性...

Anonymous said...

可以的話能不能請您稍微解釋一下ID野球是什麼樣的系統?
因為以前曾經在日本的時候, 許多看棒球的人都說野村的ID野球多厲害多怎樣是個劃時代的管理系統之類的話, 但是問一堆說ID野球最高的人是什麼卻有說不出個所以然來

所以我對這ID野球充滿著好奇呀XD

如果您方便的話可以解釋一下讓大家都獲得新知嗎?

小弟姓黑名貓 said...

原來我遜掉了....

Morikawa said...

Anonymous,

ID 野球的 ID 是 Import Data 的縮寫,但這裡的 "data" 和 "stat" 有很大的差別,野村 的 data 指的都是 "觀察球場上的一舉一動"。

要把這個 ID 的 idea 講得很具體並不容易,我們先以打者來舉例:野村 告訴給他的 徒弟 古田敦也 (現任 Yakult 監督) 要將打者分成 4 種類型:

A. 理想型:任何來球都能應對自如。

B. 預設型:在下一個來球投出之前,先預設自己的揮擊方式。

C. 強攻型:不論任何來球都將球擊到自己想要的方向。

D. 猜球型:如果猜錯了,就打不到球 (或打不好球) 的打者。

原則上這 4 種型的敘述在 野村 的著作與一些文章發表裡並沒有一個定論,這裡只是講個大概,但 野村 認為大部份的 NPB 打者都是 D 型 -- 包括他自己在內,因此他要求 古田 要能夠對 D 型打者做最適切的處理,如果這些 D 型的打者都能有效解決,就能阻斷對方的攻勢。至於如何辨別這些型,那就是捕手必須要去做的工作。也因此,這裡頭和 stats 沒有任何關係。

以對付 松井秀喜 為例,野村 坦承 大松井 在他的分類裡就是 A 型的打者,換句話說,根本找不到解決他的方式 (古田後來也有表示有時候他根本不曉得該如何對付 大松井,但是對 高橋由伸,古田 就很有信心),但是 野村 發現松井在面對左投手時,每當捕手將球回傳給投手時,松井都會觀察捕手接球的位置,做為下一次擊球的參考,因此 野村 認為 大松井 在面對左投手時就不再是一個 A 型的打者,而是 B 型,這就給了對手攻略他的機會。

野村 也觀察到 大松井 擊出 HR 時的擊球點和一般的強打者不同 -- 一般都是內角球強拉,但 大松井 的全壘打點卻是在外角的位置,反而對於左投手的內角高球感到不適應,因此 野村 表示他在 阪神監督 的時代,就是利用像 遠山獎志 這種速球不到 140km/h 的左投手、以內角高球外帶一些 "幻惑的身法" 在關鍵時刻壓制 大松井 的攻擊力。

總的說來,野村 在 大松井 這個例子裡的所 imported 的 data 指的是:

1. 大松井 面對左投手時不再是個 A 的打者,因為他會偷看捕手接球的位置。

2. 大松井 的全壘打點在外角,所以應該用內角球強攻他。

3. 一個速球不滿 140km/h 的左投手會給予對手很好的 "信心",會讓對手覺得不可能打不到這種 powerless 的球。但在捕手的引導下將球投到 大松井 感冒的位置,他會出手,並且打不好。

類似這樣的理論,才是 野村 的 ID 野球,當然,大松井 在離開日本前就已經成長為幾乎無死角的打者了。

另外,也好比說在引導投手方面,挑戰過 MLB 的 石井一久 之前在 野村 的麾下與 古田 搭檔時,古田 就曾抱怨說擔任 石井 的捕手簡直 "像在做足球的守門員",但 野村 反而責備 古田 沒有好好觀察自己隊友的特性 (沒有 ID 自己的投手),他給予 古田 的忠告是:不要對 石井 要求控球,而要重視他的 球威,後來 石井 在 NPB 也一時成為很會 K 的 Ace。

至於01 年 Yakult 拿下日本一的那一季,古田 在球季結束後談到 入来智 這位投手時表示:入来 在投速球時食指可能用力過猛,使得他的速球有些微往右打者內角竄的位移,但他自己不曉得!而 古田 則對這一點加以利用,往往在他需要內角速球時,他的配球是把手套擺在紅中的位置,一方面給予投手信心,一方面達到他需要的目的。

這大概就是 ID 野球的幾個案例,就個人的所知,大約可以歸納成下面這幾句話:

"相信自己的眼睛,把所觀察到的事物記錄下來,將可以做為日後決勝參考的部份篩選出來再加以利用"。

也因此,貫徹 野村 ID 野球 信念的 古田敦也 在 Yakult 的黃金時期被稱為是 "球界的頭腦"。而 Yakult 真正有考慮像是 OPS 這種比較有意義的數字,卻是在 古田 開始接任 Yakult 監督後才開始的工作。

Anonymous said...

那照這樣講起來的話, ID野球其實很魔術呀, 那看好像是攻略人的習慣的樣子

看例子後感覺好像有點LaRussa+Lasorda再除二的帶兵風格

乍看之下調度時會有很大的成效, 但實際上卻是魔術到不行這樣XD


謝謝您肯花時間解釋ID野球的例子

Morikawa said...

To 黑貓,

其實我以為你的 Blog 名是從 ESPN 看來的。

--------

To Anonymous,

待怎麼看待 ID 野球?這我不便評論,端看你怎麼想了。

小弟姓黑名貓 said...

其實我是看某一集的numb3rs看到的。 字幕組是大陸人, 然後他們翻為賽博計量學, 然後我想這個翻譯真不錯, 所以改博為伯來當成我blog的title。

Dorasaga said...

Anonymous,

這並不是魔術。ID 不是想用就突發奇想,連hunch都沒有,而是要靠統計的,把觀察的結果量化,分類,作出資料簿出來。許多manager手上都有一堆,紅襪的Terry Francona以及小熊的Lou Piniella,他們都不時無刻地在翻閱手邊的那厚厚幾本「data」。

野村和LaRussa 也會去翻,不過他們記憶力特好,翻的次數比較少,這是習慣的問題,結果他們被一些人歸類為「old-school」,依賴自己的經驗勝過一切。

A True comment?I doubt...

第一次聽到對野村的棒球觀下結論在去年Bobby V的blog上,後者好像不喜歡前者(文字中看得出來?)。但是野村有他的一套,Bobby 從去年說「I guess he's an old-school guy」今年說「They are a much better team this year」,也不再講他和野村想法的不同。

只會玩徐生明那種魔術的話,不可能得到其他manager的認同。