OPS Talk
這篇不能算是研究成果,也沒有太高深的東西,因此開了一個新的 label:Just for Fun。希望藉此能給對數字有興趣的朋友一些推力。
在談論 OPS 之前,我想先簡單的介紹迴歸分析 (regression analysis) 這個統計手法。迴歸的目的是建立一個線性模型來做預測,畢竟統計的目的不是研究機率分佈 (probability distribution) 的行為,當然,什麼樣的東西合適用或不適用迴歸又是另一層學問,在這裡我們不細談。
舉個簡單的例子,如果我們把 X 當成 LD% (Line Drive percentage),Y 當成 BABIP,我們希望能藉由一堆資料的 derivation 後做出一個 model,像下面這個樣子:
Y = b + a * X
其中,常數 (coefficient) b 我們稱之為截距 (intercept);常數 a 我們稱之為斜率 (slope),而 Y 就是所謂的應變數 (dependent variable);X 則是所謂的自變數 (independent variable)。這個簡單的模型,個人在 Ethier The Juggernaut 一文裡有 apply 過。
但迴歸分析並不是隨便拿一堆數字來做最小平方法 (LSE: Least Square Error) 後得出最佳解然後就 case closed,一個很重要的東西叫做相關係數 (correlation coefficient),它所描述的是兩組變數間的線性關係 -- 當然,學過統計的朋友也許會覺得這樣的論述不夠 solid,但對 regression analysis 101 的談話來說 (個人覺得) 已經算是 good enough。有興趣的朋友可以在 Wiki 上找到 相關係數 的解釋與一些 scatter plots。
我想說的是:即便相關係數為 'ZERO',上述類似 Y = b + a * X 這樣的 model 一樣可以被 fit 出來,也就是說:如果有人給我們一個迴歸分析求出的模型卻沒有給相關係數,就和常見的民調做出信賴區間 (confidence interval) 卻沒有提到信心水準 (confidence level) -- 對這樣的結果我們可以準備踢屁股!
而在 Ethier 那篇文章裡,BABIP 與 LD% 的相關係數大約是 0.459,個人在後續的推導裡訂出一個界定 "outliers" 的標準,把一些極端的 samples 剔掉,最終得到的相關係數在 0.52 左右。
相關係數 0.52 所表達的另一層意思是 LD% 這個自變數對 BABIP 大約有 (0.52^2) ~ 0.27 的解釋程度。也就是說,憑個人所求得的模型想要完全解釋 BABIP,尚有近 73% 的部份屬於未知的世界,這看起來也許讓人洩氣,不過就統計手法而言,個人比較願意做的是 "找出額外的 hidden variables 將之加入模型,提昇對 BABIP 的解釋程度"。比方說:我們把 GB% 也當成自變數加入模型:
BABIP = c + (a * LD%) + (b * GB%)
同樣利用談論 Ethier 那篇文章裡的資訊,GB% 與 BABIP 的相關係數是 0.167,加上我們 expect 打者的 GB% 與 LD% 是 獨立 的,那麼這個新模型對 BABIP 的解釋程度將會向上提昇 (0.167)^2 = 0.03 左右。
事實上自變數的選擇是一項學問,不過這也不是我們要談的,大方向是:模型在自變數增加的情況下,對於應變數的解釋能力幾乎都是有增無減 (不過自變數的數目如果超過 sample size 就可笑了)。有興趣的朋友可以從 RC (Runs Created) 來找案例 -- 不妨 Google 一下,大概會找到一大堆不同型式的 RC 計算方式,而計算方式越來越複雜、加下去的 stats 越來越多的原因不外乎是 "增加自變數"。
現在我們回頭看 OPS。
要明確表達 OPS 是什麼東西是不容易的,它只是很單純的把 OBP 和 SLG 給加起來。原則上 OPS 不是一個具有實質意義的東西,只是個做為比較球員用的 "量" (quantity)。
我們把角度換成由 OPS_Win 的 derivation 出發,在 A Dirty Way to Derive OPS_Win 一文裡曾經出現過下面這樣的式子:
Runs = ( 1.747 * OBP + 1.001 * SLG ) * 162
簡化如下:
RPG ~ 1.75 * OBP + SLG
RPG: Runs Per Game = Runs / 162
這可以看成是:
RPG = OPS + 0.75 * OBP
所以 OPS 仍然可以看成是 RPG 的 offset,甚至它也說明了一件事:對於 OPS 相同的球員,OBP 較高的則 RPG 也比較高,只不過這件事我們早就知道了...
接下來考慮這個問題:如果我們不用 OBP 與 SLG 去 figure OPS 而是用 OBP 與 IsoP,結果會不會比較好?
個人的想法是 "不會"!理由在前面已經花了些篇幅來解釋:越多的自變數可以增加模型對應變數的解釋程度。我們考慮如下:
OPS = OBP + SLG = OBP + ( AVG + IsoP )
RPG = c + OBP + AVG + IsoP
Where c = 0.75 * OBP
是故:如果只考慮 OBP 與 IsoP 的模型,等於把 AVG 從中剔除,或者說剔除一個自變數,我們預期對 Runs 的解釋程度將要降低。
一個很直覺的看法:當我們僅僅考慮 OBP 與 IsoP 的時候,由於 hit 的成份和 BB 一同被綁在 OBP 之下,是故在 fit Runs 的時候,H 與 BB 無論如何將有相同的權重 (weighted),但實際上 hit -- 即便是 single -- 的價值是高過 BB 的:畢竟在一壘有人的時候,一個 BB 不會讓情況變成一三壘有人但一支 single 卻有這種可能性。Moreover,我在寫 Demystify EQA and Its Eccentric Baseline 這篇文章時也提到:在 Raw Eqa 的式子裡,H 與 BB 的權重為 2 : 1.5,有興趣的朋友不妨拿這個部份和 LWTS 比較看看。
最後想說明一件事:參考 Davenport 在 導証 EQA 的文章 裡有提及 OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。這表示 OBP 與 SLG 各自對 RC 的解釋程度是 (0.866^2) 與 (0.890^2)、respectively;而兩者總和的 OPS 對 RC 的解釋程度雖可達 (0.922^2),卻 不是 OBP 與 SLG 各自對 RC 解釋程度的總和!換句話說,OBP 和 SLG 雖然不像我們在先前所舉的例子一般:是一組彼此間相互獨立 (mutually independent) 的自變數,但並不代表它們不是好的自變數。
事實上對於用來 fit 應變數的自變數來說,彼此間相互獨立並不是必需的要求,它們可以是相依的,只不過當自變數有相依的情況,我們 "較難" 探討單一自變數對應變數的影響,如此而已。
6 comments:
Morikawa,
謝謝引導。我本來想不加壓力,就不在之前跟文回覆,不過您還是在兩星期內搞定,幫我少了兩星期的頭痛~
xD
關於IsoP vs SLG into OPS的問題,我沒想錯的話:
以統計學觀點來看,SLG 還是在OPS包含內預測 Runs Created 比起IsoP被包含而已來的準確,因為IsoP等於是SLG內有的兩個自變數(另一個是BA)其中之一。而扣掉越多OPS內越多自變數會讓OPS適應RC的環境變的更加不準確。
以球場上的現實而言,因為SLG也包含Hits,所以將和OBP合一起的安打權重加大,因為安打對RC的幫助的確比walk大。
那我現在會想,有無可能用SLG以及OBP變相地合在一起,做個方程式,不用調整OBP(例:*1.5再加SLG)就可以成為一個簡單明瞭將 H^x-power +2BH+3BH+BB+HR-SC-XXX這種算式來derive新OPS呢?
當然,我還是認為保留個OPS來比較不同選手比其他指標性數字來的明瞭,所以它是有一定很大意義的。
Statistic is so freaking hard
you stat heads are unbelievable
http://www.billjamesonline.net/fieldingbible/charts/leaders2-07.gif
某人的守備到底好不好阿。= =
個人這個月由於在工作上輪到 integrator,所以做什麼事都會比較慢一點。
Dora,
你可以看看 Wiki 這篇 Runs Created。我覺得裡頭有幾種型態的 RC 會是你想要看到的東西。
不過 OPS 還有另一個最大的優勢:它沒有乘法!我認為 metrics 在計算的繁瑣與正確性之間必須取得一個平衡。
It's not I'm saying OPS is good enough, but for the sake of making a no-shit assessment in 2 seconds, OPS looks like the winner to me.
----
Charlesys,
I have a M.S. in statistics. Removing stats off my head is the same as removing 'speed' off Juan Pierre's -- I would get nothing left.
----
大和,
我猜你在說 Pierre,同樣的問題你好像已經問過了:plus / minus 的資料只是 defensive contribution 一種較準確的表現,沒有太多的預測能力也不代表 Pierre 的 'REAL' defensive stuff。
OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。
好像大部份的論述都是OBP比SLG要重要,那麼為什麼OBP對RC的correlation會比SLG要低呢?(0.866<0.890)
簡單的解檡就是:分數是 "打" 下來、不是 "走" 出來的。
SLG 反映的是球打出去後平均的進壘數,壘數堆不起來自然沒有分數;OBP 則比較像 "存活率",如果活不下來自然連得分都別想!
話雖如此,任何有 extra-base 的 event -- 也就是長打 -- 在 OBP 裡和 single 與 walk 的權重 (weight) 是一樣的。這在單單解釋 RC -- with prototype (Total Base) * SLG -- 時當然會有比較有缺陷。
Think More:AVG 的缺陷是不是更大呢?
Post a Comment