Tuesday, August 07, 2007

Mano a Mano: Nomo V.S. Wang

最近在中文的傳媒上看到關於 Wang (王建民) 和 Nomo (野茂英雄) 的一些比較,只要把 "王建民"、"野茂英雄"、"勝投" 這幾個關鍵字打到 Google 去隨便找都會蹦出一堆相關訊息,所以這裡我只節錄其中的一份:

同樣是生涯第70場先發,日本的野茂英雄當年的戰績只有34勝19敗,勝率6成41,如果以前三季勝場數來比較,野茂當年為道奇隊拿下43勝的戰果建仔本季還有10到11場先發機會,所以建仔要突破野茂英雄前三季所締造的勝場數。

個人對於 Wang 沒什麼可以評論的,我只知道他是個相當 solid 的 SP,而且可信度隨著時間的過去而越來越高;另一方面,對於平面媒體永遠可以在 Wang 多拿下一場勝投時找到些東西來慶祝也感到十分的欽佩。無論如何,有功可慶總比沒有好,這畢竟是身為 "粉絲" 的權利。

不過個人看到 Nomo 被拿來和 Wang 比較時的第一個反應比較奇怪:在印象中,Yankees 對 Wang 的先發一向十分 "捧場",至於 Nomo 的勝場數...該不會是 Dodgers 有愧於他吧?

無論如何,拿勝場數來評價 SP 本來就是一件怪事,在這裡我們就用一些最簡單的 sabermetrics 來看看 Wang 與 Nomo 之於 Yankees 與 Dodgers、respectively 的 contribution 比較。方法在 07 年 1 月 已介紹過,這裡就不再贅述。但必須要另外引進的一件事是利用球隊的 RS 與 RA 來推算出 Dodgers / Yankees 在 Nomo / Wang 前 3 年先發時的 runs environment,進而決定 Pythagorean Formula 的 power。

以下是 Nomo 的情況,其中 RS/G 為 (Dodgers 的) Run Scored Per Game:

YearGSIPRARS/G
199528191.12.9644.402
199633228.13.6674.340
199733207.14.5154.580


以下則是 Wang 的情況 (至 07 年 08/05 為止):

YearGSIPRAR/G
200517116.14.4885.470
200633218.03.7985.741
200720136.23.4895.927

可以看得出來在被拿來比較的幾年裡 Nomo 與 Wang 所屬的球隊在 Runs Scored 的部份有一段距離,我們尚需要利用各自的 TeamRA 去估計 Nomo / Wang 在先發時球隊每 9 局的預期失分 (Expected Run Allowed Per 9-inning、ExRA9),再利用 (RS/G + ExRA9)^ 0.287 得到 Pythagorean Formula 所需的 power。

Nomo:

YearRS/GRATeamRAExRA9Power
19954.4022.9644.2303.2701.795
19964.3403.6674.0003.7441.822
19974.5804.5153.9804.3531.875

Wang:

YearRS/GRATeamRAExRA9Power
20055.4704.4884.9604.6021.940
20065.7413.7984.794.0621.925
20075.9273.4894.653.7721.919

其中 ExRA 代表的是 Nomo/Wang 在先發時,球隊預期會失掉多少分數;所以我們的 Pythagorean Formula 就成為:

WPCT = A / (A + B)

Where A = (RS/G)^Power, B = (ExRA9)^Power

接下來就可以算出 Nomo / Wang 在先發時對於 Dodgers / Yankees 的預期勝場數 (Expected Wins, ExWin),並與個人 "實際" 所拿下的勝場數 (RealWin) 比較:

Nomo:

YearGSE_WPCTExWinRealWin
1995280.63017.64813
1996330.56718.70616
1997330.52417.28514
Total53.64043


Wang:

YearGSE_WPCTExWinRealWin
2005170.5839.9128
2006330.66121.80119
2007200.70414.08513
Total45.67640

以 Wang 的 06 年為例,這裡的 ExWin 代表 Yankees 於 06 年 Wang 的 33 次先發中預期拿下 21.801 Wins (這不是 Wang 的勝場,而是 Yankees 的勝場,實際上的資料則是 Yankees 拿下了 22 Wins),其中 19 decisions (RealWin) 到了 Wang 的口袋裡。

所以在考慮 Dodgers 與 Yankees 在不同的年代,不同的得分環境、不同的 bullpen support 的情況下,Nomo / Wang 在他們的前 3 年帶給 Dodgers / Yankees 的是大約 54 / 46 的 ExWins (Expected Wins),那麼假使 Wang 在生涯前 3 年的 ExWins 要超越 Nomo,代表 Wang 在未來 11 次可能的先發裡必須 maintain 約 0.727 (8/11) 的 WPCT。

這樣的難度有多高?Say,倘若 Yankees 的 RS/G 沒有 dramatically change "且" Wang 在未來的 11 次先發裡每次主投 7 局,他必須 將自己的 RA 降低到約 3.21 的水準才能辦得到。也因此,在 ExWins -- or pure contribution so to speak -- 這個環節上,Wang 在生涯前 3 年要趕過 Nomo 恐怕沒這麼容易。

However,由於 05 年的影響,Wang 的前 3 年將會比 Nomo 少掉 10 ~ 11 次先發的機會。那麼給予相同的 playing time,究竟誰對所屬球隊的 pure contribution 較大? Go figure...

Right then, can we close this case? Well, maybe not...

上面所引用的方法有點像是把球隊的勝利 "分配" 給 SP,也就是說如果球隊本身的 wins 比較少,在可容忍的 random fluctuation 下,每位投手被分配到的勝場也就會比較少。就 Yankees 而言,自 05 年至今 (2007/08/05) 為止拿下了 254-win 與 0.582 的 WPCT;Dodgers 在 95 ~ 97 年間則拿下 256-win 與 0.547 的 WPCT。Plus,95 年的 regular season 只有 144 regular games 而不是 162。換句話說,pure contribution 對處在一支較差球隊的 Nomo 來說,仍然有些不公平的地方。

因此,我們再採用另一個 scope,以兩位投手所處時空給予相同的投球局數,在他們的前 3 年裡究竟比 league average 的投手為球隊省下幾分 (RSAA: Run Saved Above Average)?

Nomo:

YearIPRALgRARSAA
1995191.12.9644.6535.84
1996228.13.6674.7126.48
1997207.14.5154.632.64


Wang:

YearIPRALgRARSAA
2005116.14.4884.733.12
2006218.03.7984.9427.66
2007136.23.4894.8320.36

就 RSAA 的 total 而言,Wang 大約比 Nomo 少了 15 分,好吧!我們把 Wang 在 05 年損失掉的 11 次 GS 也加上去,這就等於是說 Wang 在 22 次先發裡必需比 league average 的投手少丟 15 分才能與 Nomo 前 3 年的成績扯平,以 6.5 IP/G 來計算,Wang 必需維持的 RA 大約是 3.88。

對於這個結果,只能說以對球隊 pure contribution 來看,Wang 絕對在 Nomo 之上;但以 league percentile 的角度,相信在 95 ~ 97 年於 NL 比 Nomo 要優的 SP 比起 05 ~ 07 年於 AL 比 Wang 要優的 SP 要來得 "少"。

Who's better? Go figure...

8 comments:

壇上大和 said...

http://0rz.tw/ad2VR

怎麼不只很多數據都把Pierre的守備排很前面...。

這是在中職論壇一個版友貼給我看的。

Dorasaga said...

請問一下,有什麼方法算投手該季的regression呢?

王如果regress,就好玩了。media and fans alike will start pulling their hair~

當然,要先算出來regress再來比較聯盟標準還有下結論。

Morikawa said...

To 大和,

Pierre 的問題在於接得到球但傳不回來,我沒看過肩力像 Pierre 和 Gonzo 那麼爛的 OF。而那篇數字裡的內容是以守備範圍來決定的。

肩力的嚇阻在守備統計的部份也是一項難題,總之看 OF 的 A (阻殺) 是一定不準的,且不提 Pierre 這種 "娘子肩" 的 OF,要是來一個像 Ichiro 這種強肩型的 OF,人家根本就連跑都不敢跑,哪來的 A?但 Manny 或 Soriano 呢?他們的 A 會多不就是因為大家覺得他們守備不好才會想去挑戰的嗎?

------

To Dorasaga,

Regress toward the mean 的手法一般是在球員的樣本數不足的情況下才會用一些 league average 的球員資料將不足的部份補足,Roughly,投手要 regress toward the mean 大概是 3 季的時間,總之就是總投球局數補到 600 ~ 650 局。比方說 Wang 現在是 400 局,那麼在他未滿 650 局之前,我們就補 250 局 league average 的投手資料給他。

不過 Wang 的成績就這兩年來看一直都很穩定,他的確很像是真貨,台灣的球迷瘋他是有理由的,就和 Ichiro 當時挑戰 MLB 的第一年一樣,日本人不也都為 Mariners 而瘋掉了嗎?

Benson said...

請問一下, 為什麼1997年Nomo的ExRA9(4.353)比他當年的RA(4.515)還來的低?
我以為ExRA9=RA+TeamRA*(9-IP/GS),不過實際試算起來發現並不是這麼一回事,可以解釋一下嗎?

另一個問題請教, 請問在計算POWER的時候為什麼選用TeamRA,而不是後援投手的RA or 後援投手的平均失分(包含幫先發投手丟掉的分數), 使用TeamRA 不就有可能會讓其他先發投手的表現也影響到計算的值了嗎?

Morikawa said...

Benson,

我是用 Nomo 的 RA 與他的 IP/GS + Team RA 去估 ExRA9,以 97 年為例,就是:

IP/GS = 6.282
A = (6.282/9) * 4.515
B = [(9 - 6.282) / 9] * 3.98
ExRA9 = A + B =~ 4.35

其實這個方法你要挑毛病的話又豈止是 "為什麼不用 bullpen 的 RA" 而已?(比方說,很多機會下,一場比賽的投手群根本不會投到 9 局對吧?)用這個方法只有一個訴求:簡單、同時也不會差得太遠。而 Po 出來的東西,就是要讓大家來挑錯。

關於 team RA 與 bullpen RA 的部份,假設每場比賽 bullpen 都出 3 局 (事實上也沒有那麼多..),然後 bullpen RA 與 team RA 相差 1.5 分 (事實上也不會差那麼多),9 局下來的 ExRA9 差距大約在 0.5 分,or 0.05 wins。

這麼一來,我的誤差在 30 次先發時大約可以控制在 1.5 wins 左右,這勉強是我可以容忍的範圍。

我會很樂見 -- 你如果有興趣 -- 不妨修正我的 "懶惰" 與分享你的成果。

最後,要感謝你的 comment,更感謝你沒有把這篇文章的結果當成是無誤的,我相信這樣的討論應該可以讓你我都得到一些東西。

to be fair said...

To Dorasaga

王是真貨也好,假貨也罷,個人也不喜歡媒体沒事找野茂數據來挺王的炒作,但卽使王現在regress, 明年就回來吃自己,至少MLB紀錄不會消失,fan也無需抱怨。對小郭和曹也有相同的期盼,但至今仍是一趟趟的DL,他們美好的MLB紀錄還是只在想望中。

Benson said...

Hi Morikawa,
感謝你的回覆, 我有試著去算過到Nomo與王下場為止時球隊的Win%再用來計算ExWin, 結果與你先前的差距並不大, 分別是 Nomo(53.9) 王(46.5)
抱歉因為我對sabermetrics並不了解, 所以我沒有辦法對這個topic做延伸.
不過,也因為我對sabermetrics不了解, 所以我想請教, 問什麼你會用ExWin這個計算值來當做這兩位投手比較的一個項目, 並且說這是pure contribution? 我個人覺得ExWin指的是該投手在所處球隊中的相對應貢獻值, 畢竟RS/G 在這裡也佔了另一個重要的部分, 而且在某些特殊況下, 也許靠RS/G 就可以讓比較失真, 這應該也是你說Nomo 吃虧的地方是嗎?

Morikawa said...

Hi Benson,

這麼說吧:一支球隊的 WPCT 如果以 Pythagorean Formula 來估的話,那麼應該是:(P = Power)

A = Team_RS^P
B = Team_RA^P

WPCT_Team = A / ( A + B )

其中 Team_RS 為 Team Run Scored;Team_RA 為 Team Run Allowed。

正常的情況下,球隊的勝場數會和 Pythagorean Formula 的估計相近,那麼如果我將 B 的部份 -- 以 Dodgers 為例 -- 換成 Nomo 主投時 Dodgers 的 RA,計算的結果就會有點像在處理 "Dodgers 在 Team_RS 與 Team_RA 下的 ExWin 應該分配多少給 Nomo?",因此這是 pure contribution。當然,我的做法略掉了不少細節的調整部份。

只改變 RA 而不考慮 RS 的好處有一個:萬一有一個投手很倒楣,他的 RA 遠低於 Team Average 但得不到 RS 的支援時,我們不能說這位投手對球隊沒有貢獻,他畢竟已經把 game 給了球隊,在球隊的平均火力輸出下,他有應得的 expected win;相對的,如果有位投手的 ExWin 在這個方法下算出來卻 "小於" 他所拿下的勝場數,那不也代表他的 "帳面" 成績 "真的很有運氣" 嗎?

換句話說,如果 Team 的 total ExWin 本來就比較少,投手被分配到的也就會比較少,Dodgers 的問題當然也會與他們向來都不太好的 RS 有關。

再以 Nomo 的 1995 年為例,他有 28 次的 GS (先發),如果我們把這 28 場 GS 換成一個 Team Average 的先發投手,計算出來的 WPCT 稱為 WPCT_TA,最後再計算 Nomo 的 WPCT,稱為 WPCT_Nomo,然後計算下面這個東西:

28 * (WPCT_Nomo - WPCT_TA)

這就像是 Nomo 的 Expected Wins Above Team Average,像這樣的做法就不再是所謂的 pure contribution 而是 marginal contribution 了。

不過我們要注意的是在這種近似的方法下,我們並沒有碰觸到投手的 ability 而只談他的 contribution。也因此無論這裡的方法多 solid,那都不會是 Wang 和 Nomo 孰強孰弱的結論,而是誰對球隊的貢獻較大的結論...