Wednesday, January 16, 2008

The 'Beaten' Reporter

通常,我們把一位專門負責報導某特定球隊的 writer / reporter 稱做該隊的 "beat" writer / reporter,比方說 Dodgers 的 "beat reporter" 是官網的 Ken Gurnick。個人不敢斷言大部份的 Dodger Fans 的想法,但毫無疑問的 -- Ken 絕對名列個人的 shit list 上,他應該是 "Beaten" reporter -- 上不達天聽,筆下也沒有墨水,腦袋則和電燈泡一樣 -- 空空如也。

Ken 的 "豐功偉業" 只怕是 "罄竹難書",個人最不欣賞的莫過於 "不負責任的態度",如果這裡有台灣籍報導 Dodgers 的記者在看,請把 Dodgers.com 的 Ken Gurnick 的文章插上 "red flag"。

從 08 年的年初,Ken 就有了一個荒唐的開始:

  • Dodgers reload for playoff run

  • 這篇在 1 月 1 日發表的報導寫了件驚人的事:

    Pierre's contract not only has $36.5 million left but also a limited no-trade clause, so most inquiries from other clubs start with Ethier. Otherwise, Pierre and Ethier would share left field.

    Can you f**king believe this?

    Ned Colletti 給了一個垃圾 5-year 44M 的爛合約不說,還給了 limited NTC (部份不可交易條款)?這會不會已經笨到在地球上已經找不到形容詞來描述了?

    幸好後來在 Dodger Thoughts 和 SI.com 活躍的 Jon Weisman 向 Dodgers 官方查詢,証實 Ken 的說法是錯的!

  • Ignorance

  • 原來在 US -- 而且是 Dodger.com -- 也有這種胡亂放砲的爛記者,個人這算是少見多怪嗎?

    接下來,還是和 Pierre 有關:

  • Will Pierre be a starter in 2008?

  • 有讀者來信問到 Ken 關於 Pierre 08 年會不會先發的問題,Ken 引用了一段不曉得從哪裡抄來的東西:

    I'm tired of all the baseball experts criticizing the season Juan Pierre had. All he did was lead the team in at-bats, runs scored, hits, triples, and -- more importantly -- played in all 162 games! There have been countless Dodgers players hurt for so many games that it's great to see a player come to the ballpark for every game and actually play! What a concept. All Pierre did was what we signed him for: play every day, get close to 200 hits, steal 60-plus bases, and score runs.

    如果新科 manager Joe Torre 真的讓 Pierre 玩上 162-game,恐怕不只 manager 的位子坐不穩,Yankees 時代的威名恐怕也準備跟著掃地了;而身為一個 beat reporter,沒能拿出自己的看法,卻拿第三者的垃圾話做 "保皇" 的擋箭牌,這種行為不僅不智,也令人不齒!

    至於 Ned Colletti 對於 Pierre 的態度看來是不用期待會有所改變了!當擁有一個手握大權、捅下大錯卻又不知反省的領導者,他會做的就是 "拿更大的權利來彌補自己的過失",Andruw Jones 便是個好例子 -- Andruw 的 signing 其實不算壞,只不過如果 Pierre 離開 LA 或 R.I.P. -- and I mean R.I.P. -- 的話會更好。

    ※※※※※※※※

    Courtesy of ESPN:

  • Torre's Interview

  • 在這段訪談中,Torre 被問到 Dodgers are not known for good chemistry 時作出了以下的回應:

    To me, I always want to believe that players wanna win. And you know, as far as I'm concerned, I'm not a believer that chemistry creates winning, I think winning creates chemistry. You don't necessarily have to get along, you don't have to go out to dinner all the time together. But I think the fact is you respect each other and respect what you need to do out there. It's very important. To me, it's a wonderful line.

    I know the Dodgers, we almost drew about 4-million people last year, we do attract a great deal of attention, but to me, the support will come from within the club house. And I think that's probably where the things are gonna start.

    這倒挺有意思!一向被人視為擅於營造球隊氣氛的 Torre 自稱不是 chemistry 的信奉者。Moreover,這和 ex-manager Grady Little 在 07 年季末處理 Jeff Kent 與小朋友們的 feud 時完全是同一個態度,但 "beaten reporter" Ken 當時基於此事也沒少對 Grady Little 捅了幾刀,不曉得 Ken 有沒有膽子去批一下 Torre 的觀點?

    Whatsoever,Torre 這段談話的確讓個人對他有些改觀。

    ※※※※※※※※

    台灣的 Dodger Fans 應該比較關心這件事:

  • Dodgers sell Valdez to Kia Tigers

  • 早在 800 年前就該發生了!Valdez -- 和只打了一年好球 (其實也不是什麼好球,不過是相較下的成績比較能看而已) 的 Ramon Martinez + Nomar Garciaparra 應當可以並稱 07 年 Dodgers 的 "內野三寶" -- 被重用的原因只因為他在 07 年的 spring training 有不錯的表現,但更讓我相信的理由是他已經 29 歲 -- management 對於無用垃圾老人的 "愛" 早就到了病態的程度。

    談到 Hu (胡金龍) 的問題,個人始終覺得在 08 年他最好的角色就是擔任 utility man,Joe Torre 看起來不像是那種會讓特定選手玩 162-game 的 manager,因此在 (預期) 以 Rafael Furcal (SS) 與 Jeff Kent (2B) 為主體的 middle 會有一些額外的先發與 late-inning defense 機會交由 C.L. Hu 與 Tony Abreu 來 take over、respectively。

    想要 Hu 一口氣成為 regular 是太急了點 -- 不管他在各個 prospect list 裡排名第幾。Plus,現任 SS Furcal 和 Dodgers 的合約還有 08 最後一年的 13M -- 這不是一個讓 manager 有勇氣放在 bench 上的球員的價碼,let alone 不受傷的 Furcal 在 SS 裡算是相當的好料。

    現階段如果球團不再釋放一些無聊的 minor contracts,個人頗看好 Hu 在 08 年 opening day 上到 active roster,不完全因為 Hu 本身的 stuff,而是如果以 11 投 2 捕 7 內野 5 外野的編制去算,怎麼樣 "好像" 都輪得到 Hu,只不過坐 ML 板凳和 MiL regular 對現階段的 Hu 究竟何者較有幫助就不得而知了 (事實上個人還傾向後者...)。

    08 年應該是 Hu "學習" 的一年,根據 scouting 與 sabermetrics 兩派間的看法,Hu 的 glove work 雖頗受好評,但 bat 方面就有不小的出入,萬一 Hu 真的變成 Cesar Izturis 這一類的 SS,那麼個人並不樂見他在未來成為 Dodgers regular 的 SS。

    Wednesday, January 09, 2008

    OPS Talk

    這篇不能算是研究成果,也沒有太高深的東西,因此開了一個新的 label:Just for Fun。希望藉此能給對數字有興趣的朋友一些推力。

    在談論 OPS 之前,我想先簡單的介紹迴歸分析 (regression analysis) 這個統計手法。迴歸的目的是建立一個線性模型來做預測,畢竟統計的目的不是研究機率分佈 (probability distribution) 的行為,當然,什麼樣的東西合適用或不適用迴歸又是另一層學問,在這裡我們不細談。

    舉個簡單的例子,如果我們把 X 當成 LD% (Line Drive percentage),Y 當成 BABIP,我們希望能藉由一堆資料的 derivation 後做出一個 model,像下面這個樣子:

    Y = b + a * X

    其中,常數 (coefficient) b 我們稱之為截距 (intercept);常數 a 我們稱之為斜率 (slope),而 Y 就是所謂的應變數 (dependent variable);X 則是所謂的自變數 (independent variable)。這個簡單的模型,個人在 Ethier The Juggernaut 一文裡有 apply 過。

    但迴歸分析並不是隨便拿一堆數字來做最小平方法 (LSE: Least Square Error) 後得出最佳解然後就 case closed,一個很重要的東西叫做相關係數 (correlation coefficient),它所描述的是兩組變數間的線性關係 -- 當然,學過統計的朋友也許會覺得這樣的論述不夠 solid,但對 regression analysis 101 的談話來說 (個人覺得) 已經算是 good enough。有興趣的朋友可以在 Wiki 上找到 相關係數 的解釋與一些 scatter plots。

    我想說的是:即便相關係數為 'ZERO',上述類似 Y = b + a * X 這樣的 model 一樣可以被 fit 出來,也就是說:如果有人給我們一個迴歸分析求出的模型卻沒有給相關係數,就和常見的民調做出信賴區間 (confidence interval) 卻沒有提到信心水準 (confidence level) -- 對這樣的結果我們可以準備踢屁股!

    而在 Ethier 那篇文章裡,BABIP 與 LD% 的相關係數大約是 0.459,個人在後續的推導裡訂出一個界定 "outliers" 的標準,把一些極端的 samples 剔掉,最終得到的相關係數在 0.52 左右。

    相關係數 0.52 所表達的另一層意思是 LD% 這個自變數對 BABIP 大約有 (0.52^2) ~ 0.27 的解釋程度。也就是說,憑個人所求得的模型想要完全解釋 BABIP,尚有近 73% 的部份屬於未知的世界,這看起來也許讓人洩氣,不過就統計手法而言,個人比較願意做的是 "找出額外的 hidden variables 將之加入模型,提昇對 BABIP 的解釋程度"。比方說:我們把 GB% 也當成自變數加入模型:

    BABIP = c + (a * LD%) + (b * GB%)

    同樣利用談論 Ethier 那篇文章裡的資訊,GB% 與 BABIP 的相關係數是 0.167,加上我們 expect 打者的 GB% 與 LD% 是 獨立 的,那麼這個新模型對 BABIP 的解釋程度將會向上提昇 (0.167)^2 = 0.03 左右。

    事實上自變數的選擇是一項學問,不過這也不是我們要談的,大方向是:模型在自變數增加的情況下對於應變數的解釋能力幾乎都是有增無減 (不過自變數的數目如果超過 sample size 就可笑了)。有興趣的朋友可以從 RC (Runs Created) 來找案例 -- 不妨 Google 一下,大概會找到一大堆不同型式的 RC 計算方式,而計算方式越來越複雜、加下去的 stats 越來越多的原因不外乎是 "增加自變數"。

    現在我們回頭看 OPS。

    要明確表達 OPS 是什麼東西是不容易的,它只是很單純的把 OBP 和 SLG 給加起來。原則上 OPS 不是一個具有實質意義的東西,只是個做為比較球員用的 "量" (quantity)。

    我們把角度換成由 OPS_Win 的 derivation 出發,在 A Dirty Way to Derive OPS_Win 一文裡曾經出現過下面這樣的式子:

    Runs = ( 1.747 * OBP + 1.001 * SLG ) * 162

    簡化如下:

    RPG ~ 1.75 * OBP + SLG
    RPG: Runs Per Game = Runs / 162

    這可以看成是:

    RPG = OPS + 0.75 * OBP

    所以 OPS 仍然可以看成是 RPG 的 offset,甚至它也說明了一件事:對於 OPS 相同的球員,OBP 較高的則 RPG 也比較高,只不過這件事我們早就知道了...

    接下來考慮這個問題:如果我們不用 OBP 與 SLG 去 figure OPS 而是用 OBP 與 IsoP,結果會不會比較好?

    個人的想法是 "不會"!理由在前面已經花了些篇幅來解釋:越多的自變數可以增加模型對應變數的解釋程度。我們考慮如下:

    OPS = OBP + SLG = OBP + ( AVG + IsoP )
    RPG = c + OBP + AVG + IsoP

    Where c = 0.75 * OBP

    是故:如果只考慮 OBP 與 IsoP 的模型,等於把 AVG 從中剔除,或者說剔除一個自變數,我們預期對 Runs 的解釋程度將要降低。

    一個很直覺的看法:當我們僅僅考慮 OBP 與 IsoP 的時候,由於 hit 的成份和 BB 一同被綁在 OBP 之下,是故在 fit Runs 的時候,H 與 BB 無論如何將有相同的權重 (weighted)但實際上 hit -- 即便是 single -- 的價值是高過 BB 的:畢竟在一壘有人的時候,一個 BB 不會讓情況變成一三壘有人但一支 single 卻有這種可能性。Moreover,我在寫 Demystify EQA and Its Eccentric Baseline 這篇文章時也提到:在 Raw Eqa 的式子裡,H 與 BB 的權重為 2 : 1.5,有興趣的朋友不妨拿這個部份和 LWTS 比較看看。

    最後想說明一件事:參考 Davenport 在 導証 EQA 的文章 裡有提及 OBP、SLG 以及 OPS 對 RC (Runs Created) 的 correlation -- 分別是 .866、.890 以及 .922。這表示 OBP 與 SLG 各自對 RC 的解釋程度是 (0.866^2) 與 (0.890^2)、respectively;而兩者總和的 OPS 對 RC 的解釋程度雖可達 (0.922^2),卻 不是 OBP 與 SLG 各自對 RC 解釋程度的總和!換句話說,OBP 和 SLG 雖然不像我們在先前所舉的例子一般:是一組彼此間相互獨立 (mutually independent) 的自變數,但並不代表它們不是好的自變數。

    事實上對於用來 fit 應變數的自變數來說,彼此間相互獨立並不是必需的要求,它們可以是相依的,只不過當自變數有相依的情況,我們 "較難" 探討單一自變數對應變數的影響,如此而已。