Thursday, May 11, 2006

On Second Thought of PRC

個人在上一篇討論 PRC 的文章裡犯了些描述上的錯誤,在 Tradewind 兄給過一些意見後,個人又花了一點時間重新檢視整個 PRC 的理論,後來 Walaykao 兄提到最重要的一點:Pythagorean Formula 並不是 situational-sensitive 的 estimator。我想不管自己是沒寫清楚或是對 Pythagorean Formula 有所誤解,都有必要再來談談 PRC。

我認為統計量有兩種:可以自我解釋實質意義 (self-explainable) 與 "No comparison, no more."。

以 RAv (run average) 為例,它屬於前者,它代表了一個投手在 9 局的投球裡可能丟掉 RAv 分,本身的意義如此,也可以拿來和其它的投手做比較。

而 RC (runs created) 可能就是後者,當提到一名打者的 RC 是 100 的時候,我們不容易知道這個 "100" 究竟是什麼意思,畢竟 RC = 100 並不代表打者為球隊掙得了 100 runs,而是 100 的 RC。這樣的統計量如果不和其它的球員相比,並沒有什麼實質上的意義與價值。

Sabermetricians 不斷的發表一些新的統計量,但最終目的都是儘可能的將這些統計量「具體化」,像是打者的 VORP 達到 10 分就可以相當於 1 win (Well, this depends on whether you believe it or not.);Keith Woolner 的 leverage 不只是定義了 situational intensity,同時也點出在 specified situation 下失分對 Win Expectancy 的衝擊。

PRC 則是從投手的 RAv 出發後轉換成另一個 scale。名義上,PRC 將投手的 performance 給「變成」打者的 RC,但是當我看到 Roger Clemens 在 05 年的 PRC 是 147 之後,我只覺得這是一個不知如何解釋的 quantity。原則上它「不太可能」代表 Clemens 為 Astros 來 05 年得到「理論上」的 14 ~ 15 勝,否則計算 Win Share 的人都得去撞牆了;拿 PRC 來做投手間的比較,產生的 ranking 看起來也就像是投手的 VORP 經過 BABIP 與 DEF-EFF 修正的 result。也因此 Gassko 推導 PRC 的結果讓我覺得這是在做倒車,不像是一個有意義的統計量。

關於 Pythagorean Formula 的部份,我曾提到 "One 'critical' run scored may be worth as several runs scored.",這並不代表我要求 Pythagorean Formula 必須 situationally 適用,而是整個 RA (runs allowed) 與 RS (runs scored) 間的關聯性問題。

不能忘記的是如果 RS = 0,W% (winning percentage) 就永遠也是 0。也就是說把 Pythagorean Formula 當成是一個 solid ground 的話,在我們利用它討論 runs saved 的相對重要性之前,是否該先給 runs scored 一些 antecedent leverage?好比說,我們在 RS 加上一個 offset 量 "B",使得整個 translate runs scored 與 run saved 的 Adjusted Pythagorean Formula 成為:

W% = (RS - B)^x / [( RS - B)^x + RA^x ]

Where RS (RA) is runs scored (allowed), x represents an adequate exponent.

這樣的作法會否更合理?

當然我不清楚 Pythagorean Formula 是怎麼得到的,原則上可能還是經過一些 multivariate regression 導出的結果,但無論如何,它的 population 是所有的 historical data。在這樣的情況下,Pythagorean Formula 的 runs environment 是穩定的。

我利用 retrosheet 的資料玩了一下 RS 與 RA,發現的是兩者之間「可能有」某種程度的關聯。以 Dodgers 為例,在不考慮那些有打入 playoff 的 seasons 下,單以 simple liner regression 來 fit,RS 與 RA 之間的相互解釋程度就大概可以提昇 10% (如果單考慮 RS 或 RA,我可能不會用 工業統計估算 MTBFWeibull distribution,而是利用 Gamma-family 那種 shape 偏左特性的 distribution 去 fit)。這樣的結論當然沒什麼太大意義,就和估計 BABIP 的不可預測性差不了太多,但這至少已經讓我產生了一種懷疑:RS 與 RA 在 mediocre performance 下可能有某種程度的相依性 (dependency)。相對的,Pythagorean Formula 在這個 mediocre 的群體裡估計也較為好。

那麼針對 Roger Clemens 或 Johan Santana -- 這些較 dominant 的 SP,Pythagorean Formula 是否能 well-covered 他們的 "pitching enviornment"?Gassko 在這個部份利用聯盟平均的 RA 與 Santana 的 RA 計算出合適的 exponent,這樣的做法固然算是躲掉了可能發生的「用 fit 好的模型去預測模型行為外的個體」的錯誤,但這樣的修正可以得到多少的 credibility?我個人的態度是懷疑的。

總之,我個人對於 PRC 的看法是:

  • 我不喜歡 Pythagorean Formula,雖然它的結果很準。

  • 我不認為利用 Pythagorean Formula 來 translate Runs Created 與 Runs Saved 是一個 solid base。

  • 我不認為投手的 runs saved 有必要與打者的 runs created 相比,畢竟討論 Barry Bonds 與 Roger Clemens 究竟誰的貢獻較大時,Win Share 的概念我「比較」能接受。

  • 我不認為 Gassko 對於 PRC 的鑽研已經告一段落,更具體的 interpretation 在未來應該仍然看得到。

有時候,真的痛恨自己在學生時代為什麼不肯多用點心,到老了碰到這麼多的疑問,卻又拿不出時間來解決...

1 comment:

Anonymous said...

致各位熱愛運動的Blogger:

《運動達人-華文運動部落格聯播網》的成立,目的是希望讓喜愛運動並且以中文發表運動類相關文章的Blogger能夠串連在一起,期望我們能用自己的力量,打造一個運動迷的新樂園。

《華文運動部落格聯播網》已經事先精選了6大類超過40個運動部落格,如果你不願意加入聯播,請留言告知。

假如你希望加入聯播,則請先決定運動類別,然後在該運動聯播中留言,只要你的部落格內容符合,會盡快為你加入。

誠摯邀請你成為《華文運動部落格聯播網》的一份子!

《華文運動部落格聯播網》預計5月20日正式上線,再次感謝你的支持!

網址:http://blog.yam.com/sports