Thursday, December 27, 2007

Knowing the Onions

本文應該是 07 年這個 blog 的最後一篇文章,由於這一季個人沒有如慣例紀錄 best quotes -- 一方面是因為我懶;一方面是看到 Dodgers 在原地空轉,整理這些可能只會讓自己爆血管,所以作罷。替代的,我挑了 "三國誌" -- 英、中、日三篇文章來 follow。

※※※※※※※※

  • Haren trade gives D-backs the bigs' best 1-2 punch

  • David Pinto 應該不讓人陌生,這個名字偶爾也會出現在 Baseball Prospectus 上,個人也曾經 follow 過他的某一篇文章 (See: Two Interesting Theses I Learned)。依 個人的意見,Pinto 的工作不能被稱為一位嚴謹的 sabermetrician,他的工作很多都像是半成品,這篇也是。

    First thing first,Pinto 拿來做各隊 1-2 punch ranking 的依據是 ERP (Earned Run Prevented),這不是個新鮮東西,具體的說,Pinto 的 ERP 其實是各投手的 Earned Runs Above Average。舉例來說:07 年 AL CYA 的 Sabathia 在 200 IPs 的投球裡丟了 78 ERs (Earned Runs),那麼同樣給予 league average (ERA 4.61) 的 SP 200 IPs 與 Jacob Field 0.98 的 Park Factor,league average SP 將有 100.4 ERs,所以 Sabathia 的 ERP 為 22.4 (100.4 - 78)。

    在運用到 08 年資料的部份,Pinto 使用的是 Marcel 的預測結果,也就是個人在 這篇文章 裡談到的東西;如果有人錯過了 Anakin 兄的好心,請到 這個連結 來取得 08 年版最新的 Marcel results;至於使用的 park factor 則是 Bill James 2008 baseball handbook 的結果。

    Well,我們曉得計算投手的 ERA -- 把 earned runs 和 runs 分開計算的主要目的是希望把投手的能力從 runs allowed 裡儘可能獨立出來,但這個原意卻很可能因為 scorer 的不客觀而適得其反。Moreover,與球隊勝負有較強關聯性的是 runs (allowed) 而不是 earned runs,投手可以在一場比賽丟 10 分、0 ER,最後輸球的機會依舊很高。

    而 sabermetrics 在我看來都只有一個最終目的:計算 runs、轉換為 wins,所以如果 Pinto 想給大家看的問題是 各隊 1-2 punch 可能的 contribution,與其計算 ERP,倒還不如計算 RP (Runs Prevented)。

    其次,還是免不了要談到投手的 TTO (Three True Outcomes:K、BB & HR),這在 Marcel 的結果裡反映投手的 stuff 比起 ER 或 R 更可靠。所以如果 Pinto 想表現的是 各隊 1-2 punch 的 stuff,他應該使用 TTO,要不就把 TTO "melt down",使用 FIP -- 也就是:

    [[(HR*13) + (BB+HBP)*3 - 2*SO] / IP] + 3.2

    If our world were perfect, "ERA = RA = FIP" would be true.

    此外也別忘了 playing time 的問題,因為這些 1-2 punches 能吃下的局數並不是一樣的,let alone Pinto 並沒有說明選擇 1-2 punch 的依據為何。

    因此,Pinto 這份 list 不論從 stuff 面或 contribution 面其實都沒有做得很好。數字的確是有效的工具,但如果做得不夠嚴謹,最後的功用可能就剩娛樂讀者而已,這無所謂,Bill James 有時候也會 娛樂讀者,而 Pinto 的這篇文章其實就和他最後給的結語一樣 -- quite debatable。

    如果你也曾讀過,不妨把它當成茶餘飯後的消遣吧!

    ※※※※※※※※

  • 運動畫刊評比 建仔水準以上

  • 個人大概每天總會花點時間瀏覽一下 "運動畫刊" 的大標題,可是卻沒有發現什麼先發投手的評比文章,後來才猛然發現原文是 Dodger Thoughts 的主人 Jon Weisman 的 piece:

  • AL rotation rankings

  • NL 的部份 Weisman 其實也有 評比,但個人覺得把 SP 這項 "商品" 用等級來分類其實是很無趣的做法,且不論 Weisman 考慮了多少評斷 SP 的 categories,如果我提出一個問題:Brandon Webb 和 Brad Penny 誰比較好?我想沒有人會答 Brad Penny。

    那麼如果 Weisman 告訴我:在他的評比裡,Brandon Webb 是 4 分;Brand Penny 是 3 分,我又得到了什麼額外的訊息?

    Zip!Nothing!

    這是 index 式的 ranking 最大的問題,即便我們明確定義出 "10-run / 200-IP" 為一個劃分等級,"61-run / 200-IP" 和 "59-run / 200-IP" 很可能還是會落在兩個不同的等級下 (然而 scouts 的 2-8 scale 就很像是這種東西);或者,就像是 Chad Billingsley 和 Aaron Cook 都是 3 分,但 "絕不表示" Dodgers 的 rotation 把 Billingsley 換成 Cook 後還能持平,right?

    更何況,Weisman 根本沒有解釋在他的 scale 下,1 分的差距究竟代表多少。

    OK,我們暫時繞過上面提到的問題。假使所謂 "Weisman 的 1 分 differential" 的意義是明確且無破綻的,接下來還有另一個問題:Weisman 並沒有在各隊的 potential rotation 裡選出 "相同數目" 的投手,換句話說:一個 擁有 2 位 4 分 SP 的 rotation擁有 4 位 2 分 SP 的 rotation 相比,都是 8 分,但我相信如果我們要給這兩組人馬一個評價,最糟的答案就是說他們一樣好

    我以為在做譯電介紹時,先做些簡單的分析與過濾是必要的!就像 Weisman 這兩篇關於 AL & NL rotation 的文章 -- "Wang is an above average SP." 這件事豈會差他一個人的背書?這是公認的事實不是?By the way,有 "時好時壞" 這個項目?Does that mean the "Up-and-Coming"?

    Virtually, you didn't get nothing from Weisman's pieces, period.

    最後我想說的是,Weisman 這種 index 式的 ranking 其實也不是完全的無意義,至少,第一名和倒數第一名這兩個 positions 會有些許被相信的價值。

    ※※※※※※※※

    先來看看下面 3 位日藉先發投手在 NPB 的生涯成績:

    Mr.IPBFSOBBHBPHR
    M1402.25768135550255112
    U1459.15430130419028172
    K1700.17086125744542182

    如果光看 K/9,很簡單的可以發現 M 是 3 位投手中最猛的一位,但 K/9 有個小問題:它不是那麼 "公平" 的量。比方說某位投手在 1 局中連 K 3 人,另一位投手被敲了 1 支安打外帶送出 1 個 BB,但出局的 3 個人也都是 K,那麼這兩位投手的 K/9 是相同的,差別在於後者有 5 次機會 -- 比前者多了 2 次 -- 讓他拿下 3 K。

    換句話說,要看 K 功,除了 IP (投球局數) 以外,如果要做得精確的評斷,投手所面對的打者數目是必須被考慮的。上表中的 BF 就是 batter faced -- 3 位投手生涯在 NPB 所面對的打者數目。

    原則上如果要做 adjusted K/9、or Adj_K/9 時,我認為較合理的做法是用 league average 的 BF/9 去修正各個投手的 IP,然後再計算 K/9,比方說 NPB 每場比賽下來投手群平均要面對 35 位打者,那麼 M 投手的 IP 應當修正為 (BF / 35) * 9,然後才利用這個修正過後的 IP 來計算 K/9。不過因為我很懶,所以我把上面 3 位投手的 career K、BB 與 HR 直接除以各自的 BF,得到以下的結果:

    Mr.SOrNonIBBrHRrFIP_F
    M.235.097.019.297
    U.240.040.032.193
    K.177.069.026.772

    其中 SOr = SO / BF、NonIBBr = (BB+HBP) / BF (Non Intentional BB Rate)、HRr = HR / BF。由此看來,U 投手的 K 功其實也是相當了得的!更何況 U 投手的 BB 有點好到不可思議,至於 K 投手則和前兩位差了一個等級。

    表中的 FIP_F 指的則是 FIP 中與 K、BB 與 HR 有關的那個 factor,也就是 "[[(HR*13) + (BB+HBP)*3 - 2*SO] / IP]" 這一項,我把這個東西列出來是由於 U 投手的 HR 比 M 投手多出很多,但如果 honor FIP 的式子,M 投手在 (BB+HBP) 這一段把 HR 大幅領先的優勢全都吐了回去,所以如果我們想知道 BB 與 HR 所造成的失分程度在什麼比例才會 break even?FIP 裡 TTO 的 coefficients 其實提供了意見。

    不賣關子了:M 投手是 Dice-K (松坂大輔);U 投手是 Yomiuri Giants 的 Uehara (上原浩志);K 投手則是最近拿到 Dodgers 肥約的 Kuroda (黒田博樹)。當然 Uehara 身在投手必須打擊的 CL,所以 K 和 BB 會比 PL 出身的 Dice-K 來得佔便宜,這一點我不能否認,但基於日本人對 DH 這個位置的使用哲學,我 "覺得" 差距不如 MLB 來得這麼大。

    把這些舊帳翻出來則是因為看到下面這則新聞:

  • 上原がG投史上最高4億円で更改!

  • 個人對 Uehara 一直都有很特別的喜好,他的總合 stuff 讓我在看 NPB 的時代從來不肯承認 Dice-K 是日本的第一號 Ace,畢竟 Uehara 不只能 K,command 在 NPB 更是一品中的一品!和 Kuroda 同年的他因為受傷的緣故造成僅差 8 天的一軍登錄時間就能拿到 FA (NPB 受傷的日數是不計算 service time,這一點與 MLB 不同),所以他只能屈就於 Yomiuri 那張 4 億日圓 -- 約 4M US dollars -- 的合約。

    該篇新聞還提到一件事:Uehara 不排除 08 年球季結束後以 FA 的身份挑戰 MLB。

    坦白說,如果 Uehara 順利在 07 年的 offseason 拿到 FA,然後 Dodgers 用 3-year 35.3M 把他包下來,個人覺得這會比把錢砸在 Kuroda 身上要好得多,當然,這也讓我很想知道如果 Uehara 真的在 08 年 offseason 挑戰 MLB,他會拿到什麼樣的價碼...

    As you see, knowing the monster difference between Kuroda and the other so-called aces in NPB really makes me rocky.

    ※※※※※※※※

    Happy new year, guys!

    8 comments:

    Anonymous said...

    我記得PP(Project Prospect)在評論prospects時用的就不是K/9 & BB/9而是K%(SO/PA) & BB%,理由和Morikawa兄說的是一樣的。只不過這年頭查PA要比查AB &IP竟然麻煩多了?(特別是pitchers & MiLer)

    Happy New Year.

    Starberry said...

    Well, the SI rankings are a generalized thing written for the casual fan, so don't expect it to have too much academic vigor behind it.

    It's written for the general readership of FI, not for ppl w/ specific interest in quantitative analysis.

    As for Uehara, well, I would actually prefer that we DON'T try and sign him, for a couple reasons.
    a) He has a history of being over-worked, I am concerned about that
    b) Next year is going to be a blow out year for FA pitchers.... forget Uehara, lets lock-up someone like Bedard!!!

    Cheers,

    Wilson

    Morikawa said...

    大胖兄,

    我個人覺得對打者來說,PA 不列出來還勉強算有道理,畢竟若 AB、BB、HBP、SH 與 SF 都知道的話,PA 是唯一決定。

    但投手的部份就真的沒辦法 -- 基於 GIDP、CS 與 touch out...etc "藏" 在投球局數裡的東西。不過,像 Baseball Reference 或 Fan Graphs 其實都有提供像 BFP 或 TBF 這樣的東西,而如果要查單一小聯盟投手的 TBF,First Inning 是不錯的選擇。

    而另一種估計投手 AB (在計算 "投手的" BABIP 時所使用的技巧):

    Estimated AB = ( IP * 2.82 ) or ( IP * 3 - GIDP )

    --------

    Wilson,

    I should have used English a bit more in my post so that to avoid the ambiguity of tense in Chinese perhaps.

    Speaking of Uehara, what I tried to state is "Instead of Kuroda, Dodgers should have signed Uehara 3-year 35.3M had he become FA in 2007". I never think of signing Uehara in 08. Nevertheless, I take Uehara has an ample chance to become an elite RP in major.

    As you know, 08 is the last year of Lowe and Penny's contract. Despite the SP-blow-out upcoming offseason, Dodgers will have their holes to fit.

    By the way, Penny's 09 club option is way too cheap. For the sake business and sincerity issues, we not only have to pick it up but also ought to offer him a contract extension.

    Billy said...

    morikawa,

    我看SI只因為一年會有一次體育選手泳裝照,and that used to be all I know about SI.
    XD

    I was recently wondering what several indicators of player performance failed to tell me.

    Let's take OPS. Since OBP already taken "hits" into account, and SLG by math terms overshadows OBP, then couldn't << IsoP + OBP >> become a better OPS indicator?

    Happy New Year of the Rat! World Series at Wrigley, 2008!
    :-D

    Anonymous said...

    謝謝Morikawa兄解答。
    另外其實我也一直有個相同疑問,OBP + IsoP有沒可能會是個更好的新OPS數據…

    Morikawa said...

    Dora & 大胖兄,

    Seriously, you guys got me on this OPS thing.

    就我現階段的知識,OPS 本身並沒有什麼實質意義,而是單純做為一個比較性的存在,後來有人利用 correlation 分析而發現 OPS 與 RC (Runs Created) 的直線關係比單一三圍 (AVG、OBP、SLG) 都要好,因此就這麼被沿用下來了。

    這裡頭有些統計理論,不太方便在 comment 裡寫得太長,我會抽時間寫一篇類似 draft 而非研究成果的東西來做為後續。

    而我個人的直覺:OBP + IsoP 與 原本的 OPS 在 "做對於 RC 的 correlation 的分析" 上可能未必會比較好。

    gotribeyang said...

    Hi ~ Morikawa:

    補祝一句 Happy New Year. :)

    也感激你多加了 key word search 的功能,這樣以後我想針對某個東西去找您先前的大作會更快一點。

    另外我有個疑問,在評估投手的三振能力上,投手的 SO/TBF 是否可被斷然的認定是個比 K/9、adjusted K/9 好用且準確的單項成績?如果是的話,為何還是有較多列 player stats 的網站選擇用 K/9 當成所列 pitching stats 中的一項?

    我自己是 SO/TBF 的 fan,故一直有此問題 .. XD

    Morikawa said...

    GoTribeYang,

    新年快樂!關於 K/9 和 K/TBF,個人的認知是 "如果不是為了要詳細比較投手間的 stuff,K/9 其實已經有其一定程度的可信"。

    我先前曾用 league average 的每 9 局打者人數來修正投手的局數,也就是 Morikawa 版的 adj_K/9 (改天把它寫出來讓大家來 debate 好了),發現這其中的誤差大約介於正負 1 之間,換句話說,影響是每 9 局多出 (或少掉) 1K。

    Recall FIP 的式子、並考慮一個投 200 局的投手,誤差的 swing 大約是 22K,translate 成 runs 大約是正負 0.22 runs。

    所以這就等於是看分析的人 "希望他的背後理論要 solid 到什麼程度" 的問題了。