Saturday, August 18, 2007

How Teams Win Their Games?

因為 management 的不效率與過多的決策錯誤,使得 07 年的 Dodgers 一直讓我提不起什麼勁,MLB.tv 買得有點像是 donate 給 MLB.com,但相對的,也讓我多出一些 "東摸摸、西摸摸" 的時間 -- 我指的是 sabermetrics 的研讀。

這一陣子在看過 Aloha 的對 Pythagorean Formula 的解讀,以及與 Todd 談到 WXRL 的問題後,對 WE (Win Expectancy)、leverage 與一些 neutralized stats 的解讀有了點心得,就這個部份做一些 follow-up。

But no...我不打算引用 BP 的 WXRL,因為 1) 我不曉得 WXRL 所 apply 的 replacement level 在哪裡? 2) 我不認為 adjusted lineup 有其必要,而且也不曉得 BP 是怎麼做的? 3) BP 似乎不打算修正 Keith Woolner 在 BBTNLEV 的定義錯誤,WXRL 的 scale 有懷疑的空間。因此,我引用 Fan Graphs (FG) 所提供的資料。

整個 Fan Graphs 的系統 -- 在我的觀點下 -- 是由 OPS_Win、BRAA 與 WPA 這 3 個重點所貫穿的,以下個人小小的解釋一下這 3 個東西,已經知道的朋友可以跳過下面這個區塊。

※※※※※※※※

OPS_Wins:

調整 OBP、SLG 的權重與 playing time (PA) 來估算球員的 Wins Above Average,它幾乎可以與 BP 的 EQA 相提並論,但計算上簡單得多,關於 EQA 的討論請參考 這一篇



BRAA (Batting Runs Above Average):

和 BP 裡 DT 所提供的 BRAA 是兩回事。FG 的 BRAA 的精神比較像是 "不考慮時間的 situational Runs Added",換句話說,它是紀錄 state by state transition 時 RE (Run Expectancy) 所改變的量,舉例說明,在 RPG 為 4.5 的情況下:

BaseOutsRE
---00.500
1--00.884
12-01.494

如果某位打者在 lead-off the inning 時獲得一個 BB,他為球隊賺進的 RE 是 0.884 - 0.500 = 0.384;但接下來的打者在 1 壘有跑者時又拗到一個 BB 而形成 1、2 壘有人,他賺進的 RE 就是 1.494 - 0.884 = 0.610。同樣是一個 BB,但產生的 BRAA -- 也就是 RE -- 會不太一樣。

對投手而言,BRAA 則是 Expected Runs Prevented,就 "定義" 來看,它比較像 BP 的 ARP



WPA (Win Probability Added):

WPA 其實就是加上時間考量 (局數),將 RE 轉換成 WE (Win Expectancy) 後在 state by state transition 下的紀錄其 differential,初心者請參考 這裡

※※※※※※※※

以下是 NL 至 8 月 17 日為止 WPCT 仍在 .500 以上的球隊,依 WPCT 排序與他們打擊 (BWPA)、先發投手 (SWPA) 與後援投手 (RWPA) 三項分別的 WPA 總和:

TeamWPCTBWPASWPARWPA
D'Backs0.569-2.103.346.76
Mets0.562-0.353.344.01
Padres0.537-8.456.447.01
Phillies0.5376.48-2.24-0.23
Braves0.5240.84-0.633.29
Dodgers0.516-6.151.136.52
Cubs0.512-2.643.530.11
Rockies0.5125.99-1.79-2.20
Brewers0.508-0.80-0.773.07

首先,兩支球隊的 WPA 在比賽開始時是 50-50 的,一場勝利所倚靠的是把對手起始時所擁有的 0.5 WPA 給 "搶過來"。也就是說 0.5 的 WPA 可以代表 0.5-win above average 或是 actual 的 1-Win。也因此若 WPA 相當接近 "0",至少代表在球隊該 category 下的整體表現是接近 league average 的。

For good measure,從上面的列表能很清楚的看到每支球隊的 "長處與短處" 所在,比方說 Phillies 與 Padres 的 WPCT 相同,但 Phillies 靠的是用他們的 bats 去 muscle 對手,Padres 則是憑他們優勢的投手群;Dodgers 則是一如開季前的預期,在投手群有突破性發揮的情況下被打線完全脫垮;Rockies 長久以來在野手 prospects 的培養於 07 年開花...etc。

由於 assign 在每一個 situation 的 WPA 的多寡取決於該 situation 的 crucial 程度 (leverage),也就是說在 high/low leverage situation 下,得失分對 WE 的 swing 影響會越 大/小;相對的,average leverage situation 下的得失分到會接近我們常用的 10-run equals 1-win 的估計式。

上述的 BWPA、SWPA 與 RWPA 裡,顯然 受到 leverage 影響較大的 category 會是 RWPA -- 也就是後援投手的部份。以 D'Backs 為例,目前 RA > RS 卻拿下約 8-win above average 除了顯示他們可能在 close game 下的表現相當好以外,他們 bullpen 的 效率也是高人一等

什麼叫 "效率高人一等"?Here is an idea:

TeamWPCTRWPARBRAA
D'Backs0.5696.7613.18
Mets0.5624.0125.02
Padres0.5377.0157.74
Phillies0.537-0.23-6.96
Braves0.5243.295.43
Dodgers0.5166.5235.25
Cubs0.5120.1115.50
Rockies0.512-2.2015.02
Brewers0.5083.07-4.73

我們曉得 Padres 的 RWPA 在目前的 NL 是最高的 7.01,D'Backs 則以 0.25 RWPA -- 也就是 0.5-win 的差距緊追在後,但 Padres 的 bullpen 所省下的 situational runs above average (RBRAA) 是 57.74,整整多出 D'Backs 近 45-run 之多!這其實說的是 D'Backs 的 bullpen 被炸得很徹底時可能多半是 low leverage situation,因此對 RWPA 影響不大;但在 high leverage situation 時,他們卻不吝於達成救火的任務。我們不曉得 D'Backs 為什麼有本事拿到這麼多的 high leverage situation,但可以想像得到 D'Backs 的牛棚對 Pythagorean Formula 這種 neutralized 的估計式的 "殺傷力" 有多大。

有個想法:如果計算 RBRAA / RWPA 所得到的結果很小,至少代表這支球隊的 manager 確實做到 "send the right guy out at the right time" -- 不論他是有心還是無心;如果結果較大,那倒不盡然是 manager 調度的失誤,說不定是他的球隊沒有碰上太多 crucial 的情況使然;另外像 Brewers 的 RBRAA < 0 但 RWPA > 0 的情況或許不適用 RBRAA / RWPA 來推論,但可以理解到 Brewers 的牛棚掉了不少分數,可撿回來的分數卻比那些丟掉的要 crucial 得多。

Truth is:RWPA 與 RBRAA 的結果帶給個人最大的認知是 neutralized 的 stats -- 包括 RA、VORP...etc 都不適用於評價 RP 的貢獻 (或者說,against model reality...),RP 上場時的 leverage 使得 WE Swing 太過劇烈,幾乎看不出任何往中間靠 (neutralized) 的可能性;相較之下,打者與先發投手的部份在經過一個 long run 後,high & low leverage situation 對 WPA 的影響被中和掉的可能性是很大的,也比較適合使用 neutralized 的 stats 去評估。

最後,我們得知在 dig out "how teams get their win" 的時候,我們有 3 個不同的 scope 可以運用,以下是小小的結論:

Batting:
  • OPS_Win 是 neutralized win 的估計,適用於 10-run equals 1-win 的結果。

  • BRAA 是 situational 但沒有考慮比賽進行程度的紀錄,與 OPS_Win 比較時,若 (BRAA/10) 大於/小於 OPS_Win,則 roughly 代表球隊可能在 runners on 時有 較佳/較差 的表現。

  • WPA 加入了比賽進行的程度,late-inning 的 nice/lousy performance 會給予較大的 fluctuation。如果 WPA > (BRAA/10),則 somehow 代表打者在 crucial situation 有較佳的 peformance。說穿了,這應該是現今衡量 "clutchiness" 最好的指標。

Pitching:
  • RAAA (Runs Allowed Above Average) 是最 neutralized win 的估計,最適用於 10-run equals 1-win 的結果。SP/RP 的 RAAA 的計算方式是找出 league average SP/RP 的 RA -- say lgRA,然後利用 (RA - lgRA) * (IP/9) 來計算。

  • BRAA 是 situational runs saved 但沒有考慮比賽進行的程度,與打者 BRAA 的相似之處在於若投手的 BRAA 大於 RAAA,somehow 表示投手在 runners on 時把他們變成殘壘的情況較多,這當然也包括了 prevent inherited runners scored 的資訊。

  • WPA 加入了比賽進行程度的因素,BRAA 若與 WPA 成反比,代表投手在 crucial situation 下表現得較好。如果談到 clutch pitching,和打者的部份一樣,WPA 與 BRAA 的比較將是最好的指標。

相較於 BP 那一堆來路不明的 stats,Fan Graphs 所提供的玩具不僅簡單明瞭,而且也夠 powerful 來讓我們做出一些有利的結論。So, try to love it!

必須要強調的是,以上都只是個人的解讀,未必是 100% 正確的,如果認為有任何不妥之處,請留下 comment 給我。

16 comments:

madboy said...

這篇頗有趣,解釋了部分Aloha兄所謂1分差(或close game...whatever)造成Pythagorean Formula誤差大的問題,讓我想找時間做個retro study看看過去的歷史合不合這樣的學說...

Starberry said...

Morikawa,

Thanks!!

Finally understand what WPA means.... also, the WPA stats does confirm the anecdotal evidence (impression) that I get from watching the games.

Question though, is WPA park adjusted? As in, are the results of SD Padres' strong WPA for their relievers skewed by their ball park? I know they have Hoffman and Lienbrienk (can't spell), but does that account for it all?

thanks,

Wilson

壇上大和 said...

我眼中的假貨,Joel Guzman被魔鬼魚call上去了...。

這兩年他在IL成績真的有夠慘...,間接證實他在PCL是靠球場吃飯?XD

他在IL的上壘率實在整個鳥到不行阿...。

Billy said...

morikawa,

如果您早一個月發這文,我就可以算出羅德板凳選手的OPS_WIN了啦~
T____T

(雖然說最近我也無法算,本來被我定位板凳的,像是早川,都變先發了,唉呀,世事難料~)

不過,沒想到Cubs 最引以為傲的後援竟然在對球隊勝利的貢獻上不過聯盟標準而已(RWPA 0.11)。

幸好後援們省下的分數比Milwaukee 多20.23。

只要這個不到聯盟標準的打線再爭氣一點就好了,啊~
>.<

不過有您的簡介來點醒Cubs Faithful,福氣啊~

Morikawa said...

Hi Madboy,

其實 WE (Win Expectancy) 這種東西在局數的反應下真的會很恐怖!比如說主隊在 9 局上落後 3 分的差距下連丟 10 分,主隊 WE 的震動 (fluctuation) 不會大於 4%;但如果情況換成 9 局上平手而撐到 9 局下,主隊的 WE 就會多出 15%;若是將上面兩個情況換成 BRAA,前者大概會有個 -8 ~ -9,後者則是 +0.5 (RPG = 4.5)。

因此 WPA 的確很可以拿來看 RP 的 "純貢獻",但如果是用 WPA 看 RP 的 "能力",我想必須將 LEV 當作分母除去會比較公平。

--------

Hi Wilson,

The main concept of WPA is "simplicity". Therefore, there's neither lineup nor park adjusted within.

You may think this is not totally fair. For the Padres, they have Hoffman and Petco Park which make them easier to maintain their lead in late innings. But there's not only one way to explain the phrase "not totally fair".

Say, top 9th, visitor is lead by 1-run, in WE Matrix, the last puzzle home team needs to win the game is about 0.16 (wins). But is it necessary to say "Because I will send Hoffman to the mound. The probability for the opponent team to win the game should be less than 0.16."? If so, Does this mean after Hoffman's job is finished, he, or the Padres should not be awarded 0.16 WPA? Oh, maybe this still is not good enough, let's add park factor and complicate the whole thing?

Truth is, WE matrix provides us an average line of how WE is transited between states. From manager's view point, the last inning with a sole 1-run lead is the toughest job to be done, he better sends his best RP to grab the remain 0.16 wins "for his team".

On the contrary, if the situation is last inning, 3-run lead, the last puzzle becomes less than 0.05, about one-third of a 1-run lead. So the manager has some chances to take, he can save his best bullpen arm for next 2, 3 days. Nevertheless, what he needs is 0.05 wins for his team. It should not be awarded more than 0.05 because manager sends a punk to accomplish this easy job, either.

So, my opinion is adjustment (park or lineup) is the last thing WPA needs or will need. It's all about contribution, not try to realize player's exact ability.

To be honest, I'm not totally convinced that assigning WE differential to a certain player -- who "transits" the current game state -- is perfectly reasonable. Even though, if we're talking about "pure contribution", I think WPA is still a great metric. What's more, since winning teams will commit more WPA, it indirectly implies that the season MVP -- the one who contributes the most for his team -- should never come from a losing team.

Morikawa said...

Hi 大和,

我想 Guzman 所在的環境會讓他有較好的機會去 develop,而如果 Rays 真的成功,LA 也只能說 "bully for you"。畢竟在我看來,培養 Guzman 這種球員並不是野餐,而且 Logan White 放了行....

--------

Hi Dorasaga,

RWPA 在 Brewers 與 Cubs 之間的比較表示的可能事實:

1. Brewers 在 close game 裡的表現比 Cubs 好。

2. Cubs 的 close games 比 Brewers 少。

講通俗點,Brewers 的 bullpen 比較 "clutch",但之所以 clutch 的原因不盡然是他們很猛,而是 "There's no clutch performance unless there's a clutch situation."

Billy said...

>>2. Cubs 的 close games 比 Brewers 少。

單場比分差因素嗎?這會不會也牽扯到對手先發的狀況?如果兩邊先發投越多局越穩,當然比分差會比較接近。

Hmm, there might be a division factor. The Cubs is in then Central division, which is known to be relatively weak. But weak of WHAT?

你有fangraph 的網頁連結或是文章標題嗎?我可以用google 找,念一念該網站WPA 對Cubs的分析怎麼算出來的~

Morikawa said...

Fangraphs 沒有分析 Cubs 的文章,我的 comment 是依 WPA 與 BRAA 的結果所做出的一種推論。

這樣說吧:

主隊在 Top 9th 時領先 1 分時的 WE 為 0.83 左右,所以如果 closer 把比賽結束掉,那就可以拿到約 0.17 的 WPA 與大約 0.55 的 BRAA;如果是 Top 9th 領先 3 分時,WE 約為 0.95,closer 把比賽結束掉後可以拿到的 WPA 就只有 0.05,但 BRAA 仍然是 0.55。

相同的 BRAA 但 RP 上場情況不同的前提下,WPA 就可能差到 3 倍以上,因為前者 (領先 1 分) 的情況是 high leverage situation (HLS)。

針對 HLS,Fangraphs 對 RP 是用 pLI 來衡量,pLI 代表的是每個打席對 WE 所帶來的 fluctuation,pLI 越高,代表比賽越緊張,比賽開始的第一個打席的 pLI 大約是 0.87。

比方說 06 年 09/18,Dodgers 在 bottom 9th 落後 4 分的 4 連陽春彈,轟出第 1 發的 Kent 在上場時的 pLI 只有 0.50;到轟出第 4 發的 Anderson 在上場時,pLI 已經跳到 3.60。

而 Brewers 到 21 日為止後援投手群拿到的 pLI 是 1.15,確實大於 Cubs 的 1.09。說明 Brewers 碰到 close game 的情況可能比 Cubs 多。

And no, once you enter the playoff, there's neither weak nor strong team there. What's more, the WS title is awarded the best team in October, not MLB.

Oh, by the way:Phillies 現在的正二壘手 Chase Utley 07 年才剛簽了一張 7 年 85M 的合約,對 Phillies 來說,我覺得這張合約簽得挺不壞的,Utley 幾乎是 MLB 最頂尖的二壘手,Iguchi 純粹是在 07 年後半季去 Phillies 打工的,當然,Phillies 能找到一個略優於聯盟平均二壘手來替補 Utley 是件不錯的事。

Starberry said...

Morikada,

Duuuuuude... "幾乎是"... no no no.... Chase is BY FAR the best 2B in baseball.... quite a large margin....but yes, agreed. It was a great deal, considering the contracts that were signed last yr.

On a related note... we seem to be having a resurgence of offensively capable 2B.

Uggla and Phillips have decent power and BJ Upton is also fantastic. (Yes, but they also all have flaws, that's why Chase is still the best)

Kelley Johnson and Cano can both rake tooooooo

take care,

Wilson

J-Train said...

Upton hasn't played 2B in a while, has he? He probably should be full time OF. His infield defense is simply terrible. You don't even have to look at the stats. If you see him enough, you know he's not an IF.

Having said that, still glad to see him play well.

Starberry said...

J-Train,

Hmmm...no, you are right, Upton is a terrible infielder and has been playing OF more often.

However, that kid is VERY athletic and I actually think he can learn to be a very good defensive 2B. That range/arm/athleticism.... It actually reminds me of the Roberto Alomar story.... Alomar was atrocious when he first came up... but then ended-up as one of the best defensive 2B in history....

Take care,

Wilson

P.S.: I also forgot to mention Brian Roberts/Rollins/Figgins in my list of... 2B that can hit.

gotribeyang said...

我得承認每次看這邊的文章,不是看很快,就是看很久;看很快的時候通常是有時間壓力下 (在公司) 的匆匆一瞥。

自己會將這篇當成 offseason study work,不過到時候有想法的話,不知格主會不會 keep tracking? :D

Morikawa said...

GoTribeYang,

最近工作上比較忙碌,壓了幾篇草稿寫不出來 (反正 LA 的球季已經結束了...)。無論如何,WPA、BRAA 與 OPS_Win 加上 LEV 後的相互關係是很值得繼續看下去的題目,我個人認為 clutchness 在大樣本的資料下或許會成為一種可以預測的東西,所以我想我也會繼續研究下去,屆時希望你也能給一些意見與看法。

-----

Wilson, J-Train

You guys are right, there's no such thing as better 2B than Chase in ML. Plus his 7-year 85M contract is every aspect reasonable. But I'm not going to put my money on Cano and Phillips...

It'll be very interesting to see Rays move BJ to 2B. Defense is not an issue for any teams unless they are doing well in offense and pitching.

Well, at least I think so...

Todd7622 said...

可否容許我問個笨問題?

Fangraphs的打者BABIP公式到底是(H-HR)/(AB-SO-HR)還是這個:

H-HR
----------------
(IP*3)+H-HR-SO-GIDP

兩者之間有何異同?

Morikawa said...

Todd,

打者的 BABIP 應該不會牽扯到 IP,你所寫的這個式子倒比較像投手的 BABIP,差別只在於 Fan Graphs 的 glossary 部份用的是 (IP * 2.82) 來估計 (AB - H),你寫的這個式子用的則是 (IP * 3 - GIDP) 來估計 (AB - H)。可能在一個 long run 之下,(IP * 2.82) 會與 (IP * 3 - GIDP) 很接近。

但無論如何,(H-HR)/(AB-SO-HR) 是標準的計算方式,如果有了投手的 AB,這些估計式其實都是多餘的。

Todd7622 said...

謝謝,我想我知道了:)