Wednesday, January 09, 2008

OPS Talk

這篇不能算是研究成果,也沒有太高深的東西,因此開了一個新的 label:Just for Fun。希望藉此能給對數字有興趣的朋友一些推力。

在談論 OPS 之前,我想先簡單的介紹迴歸分析 (regression analysis) 這個統計手法。迴歸的目的是建立一個線性模型來做預測,畢竟統計的目的不是研究機率分佈 (probability distribution) 的行為,當然,什麼樣的東西合適用或不適用迴歸又是另一層學問,在這裡我們不細談。

舉個簡單的例子,如果我們把 X 當成 LD% (Line Drive percentage),Y 當成 BABIP,我們希望能藉由一堆資料的 derivation 後做出一個 model,像下面這個樣子:

Y = b + a * X

其中,常數 (coefficient) b 我們稱之為截距 (intercept);常數 a 我們稱之為斜率 (slope),而 Y 就是所謂的應變數 (dependent variable);X 則是所謂的自變數 (independent variable)。這個簡單的模型,個人在 Ethier The Juggernaut 一文裡有 apply 過。

但迴歸分析並不是隨便拿一堆數字來做最小平方法 (LSE: Least Square Error) 後得出最佳解然後就 case closed,一個很重要的東西叫做相關係數 (correlation coefficient),它所描述的是兩組變數間的線性關係 -- 當然,學過統計的朋友也許會覺得這樣的論述不夠 solid,但對 regression analysis 101 的談話來說 (個人覺得) 已經算是 good enough。有興趣的朋友可以在 Wiki 上找到 相關係數 的解釋與一些 scatter plots。

我想說的是:即便相關係數為 'ZERO',上述類似 Y = b + a * X 這樣的 model 一樣可以被 fit 出來,也就是說:如果有人給我們一個迴歸分析求出的模型卻沒有給相關係數,就和常見的民調做出信賴區間 (confidence interval) 卻沒有提到信心水準 (confidence level) -- 對這樣的結果我們可以準備踢屁股!

而在 Ethier 那篇文章裡,BABIP 與 LD% 的相關係數大約是 0.459,個人在後續的推導裡訂出一個界定 "outliers" 的標準,把一些極端的 samples 剔掉,最終得到的相關係數在 0.52 左右。

相關係數 0.52 所表達的另一層意思是 LD% 這個自變數對 BABIP 大約有 (0.52^2) ~ 0.27 的解釋程度。也就是說,憑個人所求得的模型想要完全解釋 BABIP,尚有近 73% 的部份屬於未知的世界,這看起來也許讓人洩氣,不過就統計手法而言,個人比較願意做的是 "找出額外的 hidden variables 將之加入模型,提昇對 BABIP 的解釋程度"。比方說:我們把 GB% 也當成自變數加入模型:

BABIP = c + (a * LD%) + (b * GB%)

同樣利用談論 Ethier 那篇文章裡的資訊,GB% 與 BABIP 的相關係數是 0.167,加上我們 expect 打者的 GB% 與 LD% 是 獨立 的,那麼這個新模型對 BABIP 的解釋程度將會向上提昇 (0.167)^2 = 0.03 左右。

事實上自變數的選擇是一項學問,不過這也不是我們要談的,大方向是:模型在自變數增加的情況下對於應變數的解釋能力幾乎都是有增無減 (不過自變數的數目如果超過 sample size 就可笑了)。有興趣的朋友可以從 RC (Runs Created) 來找案例 -- 不妨 Google 一下,大概會找到一大堆不同型式的 RC 計算方式,而計算方式越來越複雜、加下去的 stats 越來越多的原因不外乎是 "增加自變數"。

現在我們回頭看 OPS。

要明確表達 OPS 是什麼東西是不容易的,它只是很單純的把 OBP 和 SLG 給加起來。原則上 OPS 不是一個具有實質意義的東西,只是個做為比較球員用的 "量" (quantity)。

我們把角度換成由 OPS_Win 的 derivation 出發,在 A Dirty Way to Derive OPS_Win 一文裡曾經出現過下面這樣的式子:

Runs = ( 1.747 * OBP + 1.001 * SLG ) * 162

簡化如下:

RPG ~ 1.75 * OBP + SLG
RPG: Runs Per Game = Runs / 162

這可以看成是:

RPG = OPS + 0.75 * OBP

所以 OPS 仍然可以看成是 RPG 的 offset,甚至它也說明了一件事:對於 OPS 相同的球員,OBP 較高的則 RPG 也比較高,只不過這件事我們早就知道了...

接下來考慮這個問題:如果我們不用 OBP 與 SLG 去 figure OPS 而是用 OBP 與 IsoP,結果會不會比較好?

個人的想法是 "不會"!理由在前面已經花了些篇幅來解釋:越多的自變數可以增加模型對應變數的解釋程度。我們考慮如下:

OPS = OBP + SLG = OBP + ( AVG + IsoP )
RPG = c + OBP + AVG + IsoP

Where c = 0.75 * OBP

是故:如果只考慮 OBP 與 IsoP 的模型,等於把 AVG 從中剔除,或者說剔除一個自變數,我們預期對 Runs 的解釋程度將要降低。

一個很直覺的看法:當我們僅僅考慮 OBP 與 IsoP 的時候,由於 hit 的成份和 BB 一同被綁在 OBP 之下,是故在 fit Runs 的時候,H 與 BB 無論如何將有相同的權重 (weighted)但實際上 hit -- 即便是 single -- 的價值是高過 BB 的:畢竟在一壘有人的時候,一個 BB 不會讓情況變成一三壘有人但一支 single 卻有這種可能性。Moreover,我在寫 Demystify EQA and Its Eccentric Baseline 這篇文章時也提到:在 Raw Eqa 的式子裡,H 與 BB 的權重為 2 : 1.5,有興趣的朋友不妨拿這個部份和 LWTS 比較看看。

最後想說明一件事:參考 Davenport 在 導証 EQA 的文章 裡有提及 OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。這表示 OBP 與 SLG 各自對 RC 的解釋程度是 (0.866^2) 與 (0.890^2)、respectively;而兩者總和的 OPS 對 RC 的解釋程度雖可達 (0.922^2),卻 不是 OBP 與 SLG 各自對 RC 解釋程度的總和!換句話說,OBP 和 SLG 雖然不像我們在先前所舉的例子一般:是一組彼此間相互獨立 (mutually independent) 的自變數,但並不代表它們不是好的自變數。

事實上對於用來 fit 應變數的自變數來說,彼此間相互獨立並不是必需的要求,它們可以是相依的,只不過當自變數有相依的情況,我們 "較難" 探討單一自變數對應變數的影響,如此而已。

6 comments:

Billy said...

Morikawa,

謝謝引導。我本來想不加壓力,就不在之前跟文回覆,不過您還是在兩星期內搞定,幫我少了兩星期的頭痛~
xD

關於IsoP vs SLG into OPS的問題,我沒想錯的話:

以統計學觀點來看,SLG 還是在OPS包含內預測 Runs Created 比起IsoP被包含而已來的準確,因為IsoP等於是SLG內有的兩個自變數(另一個是BA)其中之一。而扣掉越多OPS內越多自變數會讓OPS適應RC的環境變的更加不準確。

以球場上的現實而言,因為SLG也包含Hits,所以將和OBP合一起的安打權重加大,因為安打對RC的幫助的確比walk大。

那我現在會想,有無可能用SLG以及OBP變相地合在一起,做個方程式,不用調整OBP(例:*1.5再加SLG)就可以成為一個簡單明瞭將 H^x-power +2BH+3BH+BB+HR-SC-XXX這種算式來derive新OPS呢?

當然,我還是認為保留個OPS來比較不同選手比其他指標性數字來的明瞭,所以它是有一定很大意義的。

Boston Outkast... said...

Statistic is so freaking hard
you stat heads are unbelievable

壇上大和 said...

http://www.billjamesonline.net/fieldingbible/charts/leaders2-07.gif

某人的守備到底好不好阿。= =

Morikawa said...

個人這個月由於在工作上輪到 integrator,所以做什麼事都會比較慢一點。

Dora,

你可以看看 Wiki 這篇 Runs Created。我覺得裡頭有幾種型態的 RC 會是你想要看到的東西。

不過 OPS 還有另一個最大的優勢:它沒有乘法!我認為 metrics 在計算的繁瑣與正確性之間必須取得一個平衡。

It's not I'm saying OPS is good enough, but for the sake of making a no-shit assessment in 2 seconds, OPS looks like the winner to me.

----

Charlesys,

I have a M.S. in statistics. Removing stats off my head is the same as removing 'speed' off Juan Pierre's -- I would get nothing left.

----

大和,

我猜你在說 Pierre,同樣的問題你好像已經問過了:plus / minus 的資料只是 defensive contribution 一種較準確的表現,沒有太多的預測能力也不代表 Pierre 的 'REAL' defensive stuff。

Anonymous said...

OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。

好像大部份的論述都是OBP比SLG要重要,那麼為什麼OBP對RC的correlation會比SLG要低呢?(0.866<0.890)

Morikawa said...

簡單的解檡就是:分數是 "打" 下來、不是 "走" 出來的。

SLG 反映的是球打出去後平均的進壘數,壘數堆不起來自然沒有分數;OBP 則比較像 "存活率",如果活不下來自然連得分都別想!

話雖如此,任何有 extra-base 的 event -- 也就是長打 -- 在 OBP 裡和 single 與 walk 的權重 (weight) 是一樣的。這在單單解釋 RC -- with prototype (Total Base) * SLG -- 時當然會有比較有缺陷。

Think More:AVG 的缺陷是不是更大呢?