Saturday, August 12, 2006

Ethier The Juggernaut

在 05 年 offseason 時,Dodgers 以 Milton Bradley 與 Antonio Perez 向 Athletics 換來了一位叫 Andre Ethier 的年輕人。

雖然 Bradley (可能) 有不得不走的理由,但以這筆交易本身來看,我想 DePo 派的 Dodger Fans 大概都認為是被搶了,當時個人留下的 comment 是:

Ethier 就他的 OBP 來看似乎很合乎 Billy Beane 的治隊理念,但 SLG 顯示的是到了高階後的 Ethier 在 power 方面並不十分出色,至於守備方面也沒有很好的評價。只是以目前 Dodgers 外野手殘缺不全的情況來看,Ethier 在 2006 年進入 active roster 應該只是時間問題。

另外,我一度以為 Ethier 就是易燃、易爆的化學藥品 "乙醚" (Ether),後來才曉得我這輩子從來沒有拼對過這個字。

在 06 season 過了大半之後,Ethier 成為 Dodgers 最有威力的打者之一,目前的三項基本指標是 .348 / .398 / .568;他在 replacement level 水平較高的 LF 也交出了 28.5 的 VORP、隊上僅次於 Nomar 的 32.3;同時有可能成為暨 01 年 Albert Pujos 後又一個在 rookie year 交出 .950 OPS 以上的打者。

左打的 Ethier 並不會因為對方的先發投手是左投而缺席,這其中有個小故事:據 Scully 爺爺表示,Ethier 有個非常奉獻 (dedicated) 的父親,由於 Ethier 是 left-handed,他的父親 (right-handed) 為了讓 Ethier 適應左投手的投球角度,於是開始練習用左手投球給兒子打,從 6 feet 一直練到正常投手丘到本壘板距離的 60 feet,也造就了 Ethier 目前在對左與右的 splitted OPS .945 / .966 -- 相當一致的結果。當然這數字有點不真實,因為兩者 PA 的比接近 1:6 1:5,同時 Ethier 對左投手幾乎沒有拗到 BB 過。

這沒有影響 Ethier 的自信,也因此當他被問到碰上左投手的感覺時,Ethier 總是操著有點好笑的 French 式南方口音表示:"I always hit left-handed well."。

不過在鎂光燈開始聚集在 Ethier 身上時,有個隱性的數字卻不得不讓我們注意到 -- Ethier 的 BABIP 是 .402 (至 06 年 8 月 11 日為止),這個數字看起來高得有點過份。如果對這個數字沒什麼概念的話 -- Ichiro Suzuki 在創下單季 262 支安打紀錄的 04 年,他的 BABIP 是 .401。

BABIP 是個很難解釋的東西,一般來說它有很大的運氣成份,當然這讓人很容易想到像是 "等 Ethier 的 BABIP regresses to the mean 時就會鳥掉" 的情況,不過我們可以更實際的考慮一下 Ethier 的 phenomenon 會否和整個 NL 06 年的 "BABIP 生態" 有關?有沒有什麼數字可以 somehow 解釋 BABIP?或者說 Ethier 究竟 lucky 到什麼樣的一個程度?

為了探討這些問題,我挑選了 128 位 NL 在 06 年 PA 超過 250 的打者,試著找出一些訊息。

BABIP 的構造是 (H - HR) / (AB - SO - HR),以數學的角度來看,分母越小,這個數字會越大,也因此首先讓我想到的就是那些很會被三振的 power hitter -- 換句話說,那些 BIP_PA (PA of Batted ball Into Play) 較少或 IsoP 較高的打者 "可能" 會是高 BABIP 的 group。

由於 BABIP 是 rate statistic,如果直接以 BIP_PA (count statistic) 去 figure 的話並不合理,所以使用 BIP_PA%、也就是 Batted ball into play 的 PA 佔總 PA 的比例;IsoP 的部份我考慮了兩種形式,第一種是一般所熟知的 (SLG - AVG);另一種則是 (2B + 3B + 3*HR) / AB,我把它標為 Adj_IsoP。

使用 Adj_IsoP 的原因是我認為 triples 在探討 pure power 時不應該有比 2B 更高的權重 (weight),畢竟大部份的 triple 都是 double + speed 所產生出來的。不過計算的結果顯示 BIP_PA%、IsoP 和 Adj_IsoP 與 BABIP 的 CC (Correlation Coefficient) 都低得很難看:

BABIP Correlates WithBIP_PA%IsoPAdj_IsoP
Correlation Coefficient-0.014-0.072-0.118

在 Adj_IsoP 的部份讓我有點驚訝,我一直都認為 power hitter 應該有最好的 BABIP,不過 -0.118 的 CC 算是小有意思,它 somehow 代表了 Adj_IsoP 越大的選手 BABIP 會越小,這和我的直覺相反;至於 BIP_PA%、IsoP 與 BABIP 的 CC 則是小到幾乎是完全的 scattered。

而 Ethier 的 BIP_PA% 是 71%,換句話說有 Ethier 站上打擊區時有 71% 的機會把球打進場內,在 128 位選出來的 NL 打者裡排名 77th;IsoP 排在 31st,Adj_IsoP 則排在 43rd (all in descending order)。

另一個讓我想到可能拿來 figure 的則是 batted ball tendency,理論上 LD (line drive) 是最容易轉換為 hit 的項目,同時也代表打者的擊球咬得夠準或是對投手的失投球掌握得較好,在這個部份依舊將 batted ball tendency 轉換為 rate statistics -- 以 FB%、GB%、LD% 與 PU% 分別計算與 BABIP 的 CC 如下:

BABIP Correlates withFB%GB%LD%PU%
Correlation Coefficient-.236.167.489-.459

Batted ball tendency 的 CC 要比起先前的 BIP_PA% 與 IsoP 之類的要有意義一點,LD% 果然有了與直覺相符的結果,而如果有看過 THT 的 David Gassko 所 fit 的 DIPS 3.0,也可以發現 LD 這個自變數 (independent variable) 在對 runs 做預測時有最大的 postive slope,証明 LD 在 batted ball type 裡對得分的影響最為要緊。

以下是 NL 128 位打者裡 Top 10 LD% 的 BABIP:

NameTeamLD%BABIP
C. SullivanCOL.291.358
F. SanchezPIT.290.361
B. AbreuPHI.265.351
E. Encarnacion CIN.258.337
Adam DunnCIN.256.297
O. VizquelSFN.254.349
N. JohnsonWAS.242.322
J. EdmondsSLN.238.303
R. ZimmermanWAS.238.335
S. HattebergCIN.237.338

以下是 Bottom 10 LD% 的 BABIP:

NameTeamLD%BABIP
R. AbercrombieFLO.105.295
J. BautistaPIT.118.290
S. FinelySFN.133.271
W. TaverasHOU.138.326
M. EnsbergHOU.139.257
J. BurnitzPIT.142.249
J. LaneHOU.144.222
E. ByrnesARI.147.295
J. Cruz Jr.LAN.148.287
C. FloydNYN.152.259

這裡多少可以看出 LD% 與 BABIP 的 somehow 正相關。

Ethier 的 LD% 則是 .228,在 128 位選出來的 NL 打者排名 16th,可以說他 "確實擊中球" 的能力掌握得不錯,而 Athletics 出身的 Ethier 擁有的 plate discipline 應該也是不在話下,既然還年輕,個人並不排斥看到 Ethier 盡情的揮擊,畢竟 Ethier 離需要利用 "waiting game" 來為 production 做補償的年齡還要等好幾年。

至於 Ethier 高達 .402 的 BABIP 究竟與 "大眾" 差多少?接下來我們用 LD% 對 BABIP 做個 simple linear regression:


原則上 LD% 高的選手 BABIP 就有越高的趨勢,看到 Either 在哪裡了嗎?他離那條 fit 出來的直線有一段不小的距離。Statistically,我們管這個叫 residual (殘差),針對 residual 大到某個程度的樣本點 -- 也就是所謂的 "outlier",fit model 的人可以選擇將它移掉,但是大到多少該移掉則是自由心証。

另外我也把 Barry Bonds 標示出來,他今年的 BABIP 是 deadly low,坦白說這個結果有點不自然。至於另一個標出來的點則是自家的 "Martin Brother" (Ethier 一直都這麼叫他),Martin 的 LD% 在 128 名 NL 打者裡排在 79th;BABIP 則是 39th,看起來他比起 Ethier 要正常一點。

這麼看來 Ethier 的確有些 lucky,若設定基準為 residual 的絕對值必須小於 predicted BABIP 0.05 ,那麼在 128 位 NL 打者將有 13 個 outliers,以 residual 依 descending order 排序的結果是:

NameTeamResidual
A. EthierLAN.0753
C. JonesATL.0584
B. HawpeCOL.0545
C. WilsonPIT.0543
M. CabreraFLO.0529
N. MclouthPIT-.0510
R. AuriliaCIN-.0514
B. SchneiderWAS-.0532
J. LaneHOU-.0628
K. Griffey Jr.CIN-.0685
B. BondsSFN-.0800
Y. MolinaSLN-.0854

如果把 residual 越 大/小 解釋為越 lucky/unlucky ,06 年到目前為止 NL 的 super "lucky" star 大概就非 Ethier 莫屬了,但 lucky 無罪,同時也不改變 Ethier 在 06 年打出爆炸性成績的事實。換句話說,瞭解 Ethier 的 stuff 是一回事,但計算他的 contribution 又是另一回事。After all, Ethier very often crushes opponents like the Juggernaut, and he deserves to be proud.

最後還有一個有趣的訊息:還記得 Tango Tiger 分析 BABIP 的結果嗎?他提到了 BABIP 有 44% 的成分是 luck,而如果從這 128 位 NL 打者把上述的 13 個 outliers 去掉後重新計算 BABIP 與 LD% 的 CC,Guess what?由原本的 .489 跳到 .532,pretty close。

6 comments:

tradewind said...

A rule of thumb: Normal BABIP = LD% + 0.11

又Ethier的PrOPS僅0.833

Morikawa said...

有點囧....

首先是我從沒想到 LD% 與 BABIP 的關聯 (我一直都以為 power hitter 會有較高的 BABIP 而不是 contact hitter),然後我用 BABIP 與 LD% 在網上搜尋了一下,立刻找到了 Tango 在 "The Book" 一書裡對 BABIP 與 batted ball tendency 的研究,我有那本書,不過一直都還沒看完,早看完也不會花這麼多時間去想這些問題。

不過就 PrOPS 的角度來看,Ethier 實在是 lucky 到一個不行啊....這和新手打麻將經常 "自摸" 好像也有點關聯性...

壇上大和 said...

對我來說...,這些數據真的蠻複雜的阿...。


我也覺得Ethier的discipline應該是真的...,但個人是覺得他的高打擊率是稍微誇張了點...,他應該是個0.290~0.310左右的打者...。

Power我覺得還需要觀察...。
畢竟他小聯盟待過的2A-德州聯盟和3A-PCL,都是對打者有利的聯盟...,他在那邊,SLG主要是靠高打擊率來撐...,沒道理來到Dodger Stadium突然就長出Power吧...。
(除非他從Bonds手中買了神奇的魔藥XD)


他的Speed倒是比我預期的還要好一些...。

Morikawa said...

To 大和,

關於 Power,這裡有 IsoP 與 Adj_IsoP 的結構:

IsoP = ( 2B + 2*3B + 3* HR ) / AB

Adj_IsoP = ( 2B + 3B + 3*HR ) / AB

如果 Ethier 的 HR 夠多,那麼 Adj_IsoP 在 3B 的部份比 IsoP 扣掉一半的 weight 並不會有太大的影響,甚至對很多砲手是 "根本沒有影響",因為他們打不出 3B。

但是在 128 位 NL 打者裡,Ethier 的 Adj_IsoP 排名比起 IsoP 掉了 12 個位子,就可以知道如果要拿 Ethier 的 SLG 去 figure 他的 power,那就有點灌水。

所以你的懷疑並沒有錯,Dodger Stadium 不會因為你是 "wearing blue" 就展現她的慈悲。

temjim said...

森川大,不知道您的BABIP哪裡查的呢?
我去BP查不到今年的...
不會是自己算的吧 囧

Morikawa said...

To temjim,

那些 BABIP 是 06 年 8 月 11 日之前的資料,的確是用算的而不是查來的。

其實 BP 的 BABIP 一直都讓人有種奇妙的感覺,它絕不像 (H-HR)/(AB-SO-HR) 這麼單純,但 BP 也沒宣稱他們做了什麼手腳 -- 可能又是 park adjustment 吧?