Morikawa Blue: OPS Talk

Wednesday, January 09, 2008

OPS Talk

這篇不能算是研究成果，也沒有太高深的東西，因此開了一個新的 label：Just for Fun。希望藉此能給對數字有興趣的朋友一些推力。

在談論 OPS 之前，我想先簡單的介紹迴歸分析 (regression analysis) 這個統計手法。迴歸的目的是建立一個線性模型來做預測，畢竟統計的目的不是研究機率分佈 (probability distribution) 的行為，當然，什麼樣的東西合適用或不適用迴歸又是另一層學問，在這裡我們不細談。

舉個簡單的例子，如果我們把 X 當成 LD% (Line Drive percentage)，Y 當成 BABIP，我們希望能藉由一堆資料的 derivation 後做出一個 model，像下面這個樣子：

Y = b + a * X

其中，常數 (coefficient) b 我們稱之為截距 (intercept)；常數 a 我們稱之為斜率 (slope)，而 Y 就是所謂的應變數 (dependent variable)；X 則是所謂的自變數 (independent variable)。這個簡單的模型，個人在 Ethier The Juggernaut 一文裡有 apply 過。

但迴歸分析並不是隨便拿一堆數字來做最小平方法 (LSE: Least Square Error) 後得出最佳解然後就 case closed，一個很重要的東西叫做相關係數 (correlation coefficient)，它所描述的是兩組變數間的線性關係 -- 當然，學過統計的朋友也許會覺得這樣的論述不夠 solid，但對 regression analysis 101 的談話來說 (個人覺得) 已經算是 good enough。有興趣的朋友可以在 Wiki 上找到相關係數的解釋與一些 scatter plots。

我想說的是：即便相關係數為 'ZERO'，上述類似 Y = b + a * X 這樣的 model 一樣可以被 fit 出來，也就是說：如果有人給我們一個迴歸分析求出的模型卻沒有給相關係數，就和常見的民調做出信賴區間 (confidence interval) 卻沒有提到信心水準 (confidence level) -- 對這樣的結果我們可以準備踢屁股！

而在 Ethier 那篇文章裡，BABIP 與 LD% 的相關係數大約是 0.459，個人在後續的推導裡訂出一個界定 "outliers" 的標準，把一些極端的 samples 剔掉，最終得到的相關係數在 0.52 左右。

相關係數 0.52 所表達的另一層意思是 LD% 這個自變數對 BABIP 大約有 (0.52^2) ~ 0.27 的解釋程度。也就是說，憑個人所求得的模型想要完全解釋 BABIP，尚有近 73% 的部份屬於未知的世界，這看起來也許讓人洩氣，不過就統計手法而言，個人比較願意做的是 "找出額外的 hidden variables 將之加入模型，提昇對 BABIP 的解釋程度"。比方說：我們把 GB% 也當成自變數加入模型：

BABIP = c + (a * LD%) + (b * GB%)

同樣利用談論 Ethier 那篇文章裡的資訊，GB% 與 BABIP 的相關係數是 0.167，加上我們 expect 打者的 GB% 與 LD% 是獨立的，那麼這個新模型對 BABIP 的解釋程度將會向上提昇 (0.167)^2 = 0.03 左右。

事實上自變數的選擇是一項學問，不過這也不是我們要談的，大方向是：模型在自變數增加的情況下，對於應變數的解釋能力幾乎都是有增無減 (不過自變數的數目如果超過 sample size 就可笑了)。有興趣的朋友可以從 RC (Runs Created) 來找案例 -- 不妨 Google 一下，大概會找到一大堆不同型式的 RC 計算方式，而計算方式越來越複雜、加下去的 stats 越來越多的原因不外乎是 "增加自變數"。

現在我們回頭看 OPS。

要明確表達 OPS 是什麼東西是不容易的，它只是很單純的把 OBP 和 SLG 給加起來。原則上 OPS 不是一個具有實質意義的東西，只是個做為比較球員用的 "量" (quantity)。

我們把角度換成由 OPS_Win 的 derivation 出發，在 A Dirty Way to Derive OPS_Win 一文裡曾經出現過下面這樣的式子：

Runs = ( 1.747 * OBP + 1.001 * SLG ) * 162

簡化如下：

RPG ~ 1.75 * OBP + SLG
RPG: Runs Per Game = Runs / 162

這可以看成是：

RPG = OPS + 0.75 * OBP

所以 OPS 仍然可以看成是 RPG 的 offset，甚至它也說明了一件事：對於 OPS 相同的球員，OBP 較高的則 RPG 也比較高，只不過這件事我們早就知道了...

接下來考慮這個問題：如果我們不用 OBP 與 SLG 去 figure OPS 而是用 OBP 與 IsoP，結果會不會比較好？

個人的想法是 "不會"！理由在前面已經花了些篇幅來解釋：越多的自變數可以增加模型對應變數的解釋程度。我們考慮如下：

OPS = OBP + SLG = OBP + ( AVG + IsoP )
RPG = c + OBP + AVG + IsoP

Where c = 0.75 * OBP

是故：如果只考慮 OBP 與 IsoP 的模型，等於把 AVG 從中剔除，或者說剔除一個自變數，我們預期對 Runs 的解釋程度將要降低。

一個很直覺的看法：當我們僅僅考慮 OBP 與 IsoP 的時候，由於 hit 的成份和 BB 一同被綁在 OBP 之下，是故在 fit Runs 的時候，H 與 BB 無論如何將有相同的權重 (weighted)，但實際上 hit -- 即便是 single -- 的價值是高過 BB 的：畢竟在一壘有人的時候，一個 BB 不會讓情況變成一三壘有人但一支 single 卻有這種可能性。Moreover，我在寫 Demystify EQA and Its Eccentric Baseline 這篇文章時也提到：在 Raw Eqa 的式子裡，H 與 BB 的權重為 2 : 1.5，有興趣的朋友不妨拿這個部份和 LWTS 比較看看。

最後想說明一件事：參考 Davenport 在導証 EQA 的文章裡有提及 OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。這表示 OBP 與 SLG 各自對 RC 的解釋程度是 (0.866^2) 與 (0.890^2)、respectively；而兩者總和的 OPS 對 RC 的解釋程度雖可達 (0.922^2)，卻不是 OBP 與 SLG 各自對 RC 解釋程度的總和！換句話說，OBP 和 SLG 雖然不像我們在先前所舉的例子一般：是一組彼此間相互獨立 (mutually independent) 的自變數，但並不代表它們不是好的自變數。

事實上對於用來 fit 應變數的自變數來說，彼此間相互獨立並不是必需的要求，它們可以是相依的，只不過當自變數有相依的情況，我們 "較難" 探討單一自變數對應變數的影響，如此而已。

6 comments:

Billy said...: Morikawa,

謝謝引導。我本來想不加壓力，就不在之前跟文回覆，不過您還是在兩星期內搞定，幫我少了兩星期的頭痛～
ｘＤ

關於IsoP vs SLG into OPS的問題，我沒想錯的話：

以統計學觀點來看，SLG 還是在OPS包含內預測 Runs Created 比起IsoP被包含而已來的準確，因為IsoP等於是SLG內有的兩個自變數（另一個是BA）其中之一。而扣掉越多OPS內越多自變數會讓OPS適應RC的環境變的更加不準確。

以球場上的現實而言，因為SLG也包含Hits，所以將和OBP合一起的安打權重加大，因為安打對RC的幫助的確比walk大。

那我現在會想，有無可能用SLG以及OBP變相地合在一起，做個方程式，不用調整OBP（例：*1.5再加SLG）就可以成為一個簡單明瞭將 H^x-power +2BH+3BH+BB+HR-SC-XXX這種算式來derive新OPS呢？

當然，我還是認為保留個OPS來比較不同選手比其他指標性數字來的明瞭，所以它是有一定很大意義的。; 9/1/08 06:28
Boston Outkast... said...: Statistic is so freaking hard
you stat heads are unbelievable; 10/1/08 11:59
壇上大和 said...: http://www.billjamesonline.net/fieldingbible/charts/leaders2-07.gif

某人的守備到底好不好阿。= =; 12/1/08 07:41
Morikawa said...: 個人這個月由於在工作上輪到 integrator，所以做什麼事都會比較慢一點。

Dora,

你可以看看 Wiki 這篇 Runs Created。我覺得裡頭有幾種型態的 RC 會是你想要看到的東西。

不過 OPS 還有另一個最大的優勢：它沒有乘法！我認為 metrics 在計算的繁瑣與正確性之間必須取得一個平衡。

It's not I'm saying OPS is good enough, but for the sake of making a no-shit assessment in 2 seconds, OPS looks like the winner to me.

----

Charlesys,

I have a M.S. in statistics. Removing stats off my head is the same as removing 'speed' off Juan Pierre's -- I would get nothing left.

----

大和,

我猜你在說 Pierre，同樣的問題你好像已經問過了：plus / minus 的資料只是 defensive contribution 一種較準確的表現，沒有太多的預測能力也不代表 Pierre 的 'REAL' defensive stuff。; 13/1/08 17:51
Anonymous said...: OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。

好像大部份的論述都是OBP比SLG要重要,那麼為什麼OBP對RC的correlation會比SLG要低呢?(0.866<0.890); 15/1/08 18:37
Morikawa said...: 簡單的解檡就是：分數是 "打" 下來、不是 "走" 出來的。

SLG 反映的是球打出去後平均的進壘數，壘數堆不起來自然沒有分數；OBP 則比較像 "存活率"，如果活不下來自然連得分都別想！

話雖如此，任何有 extra-base 的 event -- 也就是長打 -- 在 OBP 裡和 single 與 walk 的權重 (weight) 是一樣的。這在單單解釋 RC -- with prototype (Total Base) * SLG -- 時當然會有比較有缺陷。

Think More：AVG 的缺陷是不是更大呢？; 16/1/08 21:16