Thursday, December 27, 2007

Knowing the Onions

本文應該是 07 年這個 blog 的最後一篇文章,由於這一季個人沒有如慣例紀錄 best quotes -- 一方面是因為我懶;一方面是看到 Dodgers 在原地空轉,整理這些可能只會讓自己爆血管,所以作罷。替代的,我挑了 "三國誌" -- 英、中、日三篇文章來 follow。

※※※※※※※※

  • Haren trade gives D-backs the bigs' best 1-2 punch

  • David Pinto 應該不讓人陌生,這個名字偶爾也會出現在 Baseball Prospectus 上,個人也曾經 follow 過他的某一篇文章 (See: Two Interesting Theses I Learned)。依 個人的意見,Pinto 的工作不能被稱為一位嚴謹的 sabermetrician,他的工作很多都像是半成品,這篇也是。

    First thing first,Pinto 拿來做各隊 1-2 punch ranking 的依據是 ERP (Earned Run Prevented),這不是個新鮮東西,具體的說,Pinto 的 ERP 其實是各投手的 Earned Runs Above Average。舉例來說:07 年 AL CYA 的 Sabathia 在 200 IPs 的投球裡丟了 78 ERs (Earned Runs),那麼同樣給予 league average (ERA 4.61) 的 SP 200 IPs 與 Jacob Field 0.98 的 Park Factor,league average SP 將有 100.4 ERs,所以 Sabathia 的 ERP 為 22.4 (100.4 - 78)。

    在運用到 08 年資料的部份,Pinto 使用的是 Marcel 的預測結果,也就是個人在 這篇文章 裡談到的東西;如果有人錯過了 Anakin 兄的好心,請到 這個連結 來取得 08 年版最新的 Marcel results;至於使用的 park factor 則是 Bill James 2008 baseball handbook 的結果。

    Well,我們曉得計算投手的 ERA -- 把 earned runs 和 runs 分開計算的主要目的是希望把投手的能力從 runs allowed 裡儘可能獨立出來,但這個原意卻很可能因為 scorer 的不客觀而適得其反。Moreover,與球隊勝負有較強關聯性的是 runs (allowed) 而不是 earned runs,投手可以在一場比賽丟 10 分、0 ER,最後輸球的機會依舊很高。

    而 sabermetrics 在我看來都只有一個最終目的:計算 runs、轉換為 wins,所以如果 Pinto 想給大家看的問題是 各隊 1-2 punch 可能的 contribution,與其計算 ERP,倒還不如計算 RP (Runs Prevented)。

    其次,還是免不了要談到投手的 TTO (Three True Outcomes:K、BB & HR),這在 Marcel 的結果裡反映投手的 stuff 比起 ER 或 R 更可靠。所以如果 Pinto 想表現的是 各隊 1-2 punch 的 stuff,他應該使用 TTO,要不就把 TTO "melt down",使用 FIP -- 也就是:

    [[(HR*13) + (BB+HBP)*3 - 2*SO] / IP] + 3.2

    If our world were perfect, "ERA = RA = FIP" would be true.

    此外也別忘了 playing time 的問題,因為這些 1-2 punches 能吃下的局數並不是一樣的,let alone Pinto 並沒有說明選擇 1-2 punch 的依據為何。

    因此,Pinto 這份 list 不論從 stuff 面或 contribution 面其實都沒有做得很好。數字的確是有效的工具,但如果做得不夠嚴謹,最後的功用可能就剩娛樂讀者而已,這無所謂,Bill James 有時候也會 娛樂讀者,而 Pinto 的這篇文章其實就和他最後給的結語一樣 -- quite debatable。

    如果你也曾讀過,不妨把它當成茶餘飯後的消遣吧!

    ※※※※※※※※

  • 運動畫刊評比 建仔水準以上

  • 個人大概每天總會花點時間瀏覽一下 "運動畫刊" 的大標題,可是卻沒有發現什麼先發投手的評比文章,後來才猛然發現原文是 Dodger Thoughts 的主人 Jon Weisman 的 piece:

  • AL rotation rankings

  • NL 的部份 Weisman 其實也有 評比,但個人覺得把 SP 這項 "商品" 用等級來分類其實是很無趣的做法,且不論 Weisman 考慮了多少評斷 SP 的 categories,如果我提出一個問題:Brandon Webb 和 Brad Penny 誰比較好?我想沒有人會答 Brad Penny。

    那麼如果 Weisman 告訴我:在他的評比裡,Brandon Webb 是 4 分;Brand Penny 是 3 分,我又得到了什麼額外的訊息?

    Zip!Nothing!

    這是 index 式的 ranking 最大的問題,即便我們明確定義出 "10-run / 200-IP" 為一個劃分等級,"61-run / 200-IP" 和 "59-run / 200-IP" 很可能還是會落在兩個不同的等級下 (然而 scouts 的 2-8 scale 就很像是這種東西);或者,就像是 Chad Billingsley 和 Aaron Cook 都是 3 分,但 "絕不表示" Dodgers 的 rotation 把 Billingsley 換成 Cook 後還能持平,right?

    更何況,Weisman 根本沒有解釋在他的 scale 下,1 分的差距究竟代表多少。

    OK,我們暫時繞過上面提到的問題。假使所謂 "Weisman 的 1 分 differential" 的意義是明確且無破綻的,接下來還有另一個問題:Weisman 並沒有在各隊的 potential rotation 裡選出 "相同數目" 的投手,換句話說:一個 擁有 2 位 4 分 SP 的 rotation擁有 4 位 2 分 SP 的 rotation 相比,都是 8 分,但我相信如果我們要給這兩組人馬一個評價,最糟的答案就是說他們一樣好

    我以為在做譯電介紹時,先做些簡單的分析與過濾是必要的!就像 Weisman 這兩篇關於 AL & NL rotation 的文章 -- "Wang is an above average SP." 這件事豈會差他一個人的背書?這是公認的事實不是?By the way,有 "時好時壞" 這個項目?Does that mean the "Up-and-Coming"?

    Virtually, you didn't get nothing from Weisman's pieces, period.

    最後我想說的是,Weisman 這種 index 式的 ranking 其實也不是完全的無意義,至少,第一名和倒數第一名這兩個 positions 會有些許被相信的價值。

    ※※※※※※※※

    先來看看下面 3 位日藉先發投手在 NPB 的生涯成績:

    Mr.IPBFSOBBHBPHR
    M1402.25768135550255112
    U1459.15430130419028172
    K1700.17086125744542182

    如果光看 K/9,很簡單的可以發現 M 是 3 位投手中最猛的一位,但 K/9 有個小問題:它不是那麼 "公平" 的量。比方說某位投手在 1 局中連 K 3 人,另一位投手被敲了 1 支安打外帶送出 1 個 BB,但出局的 3 個人也都是 K,那麼這兩位投手的 K/9 是相同的,差別在於後者有 5 次機會 -- 比前者多了 2 次 -- 讓他拿下 3 K。

    換句話說,要看 K 功,除了 IP (投球局數) 以外,如果要做得精確的評斷,投手所面對的打者數目是必須被考慮的。上表中的 BF 就是 batter faced -- 3 位投手生涯在 NPB 所面對的打者數目。

    原則上如果要做 adjusted K/9、or Adj_K/9 時,我認為較合理的做法是用 league average 的 BF/9 去修正各個投手的 IP,然後再計算 K/9,比方說 NPB 每場比賽下來投手群平均要面對 35 位打者,那麼 M 投手的 IP 應當修正為 (BF / 35) * 9,然後才利用這個修正過後的 IP 來計算 K/9。不過因為我很懶,所以我把上面 3 位投手的 career K、BB 與 HR 直接除以各自的 BF,得到以下的結果:

    Mr.SOrNonIBBrHRrFIP_F
    M.235.097.019.297
    U.240.040.032.193
    K.177.069.026.772

    其中 SOr = SO / BF、NonIBBr = (BB+HBP) / BF (Non Intentional BB Rate)、HRr = HR / BF。由此看來,U 投手的 K 功其實也是相當了得的!更何況 U 投手的 BB 有點好到不可思議,至於 K 投手則和前兩位差了一個等級。

    表中的 FIP_F 指的則是 FIP 中與 K、BB 與 HR 有關的那個 factor,也就是 "[[(HR*13) + (BB+HBP)*3 - 2*SO] / IP]" 這一項,我把這個東西列出來是由於 U 投手的 HR 比 M 投手多出很多,但如果 honor FIP 的式子,M 投手在 (BB+HBP) 這一段把 HR 大幅領先的優勢全都吐了回去,所以如果我們想知道 BB 與 HR 所造成的失分程度在什麼比例才會 break even?FIP 裡 TTO 的 coefficients 其實提供了意見。

    不賣關子了:M 投手是 Dice-K (松坂大輔);U 投手是 Yomiuri Giants 的 Uehara (上原浩志);K 投手則是最近拿到 Dodgers 肥約的 Kuroda (黒田博樹)。當然 Uehara 身在投手必須打擊的 CL,所以 K 和 BB 會比 PL 出身的 Dice-K 來得佔便宜,這一點我不能否認,但基於日本人對 DH 這個位置的使用哲學,我 "覺得" 差距不如 MLB 來得這麼大。

    把這些舊帳翻出來則是因為看到下面這則新聞:

  • 上原がG投史上最高4億円で更改!

  • 個人對 Uehara 一直都有很特別的喜好,他的總合 stuff 讓我在看 NPB 的時代從來不肯承認 Dice-K 是日本的第一號 Ace,畢竟 Uehara 不只能 K,command 在 NPB 更是一品中的一品!和 Kuroda 同年的他因為受傷的緣故造成僅差 8 天的一軍登錄時間就能拿到 FA (NPB 受傷的日數是不計算 service time,這一點與 MLB 不同),所以他只能屈就於 Yomiuri 那張 4 億日圓 -- 約 4M US dollars -- 的合約。

    該篇新聞還提到一件事:Uehara 不排除 08 年球季結束後以 FA 的身份挑戰 MLB。

    坦白說,如果 Uehara 順利在 07 年的 offseason 拿到 FA,然後 Dodgers 用 3-year 35.3M 把他包下來,個人覺得這會比把錢砸在 Kuroda 身上要好得多,當然,這也讓我很想知道如果 Uehara 真的在 08 年 offseason 挑戰 MLB,他會拿到什麼樣的價碼...

    As you see, knowing the monster difference between Kuroda and the other so-called aces in NPB really makes me rocky.

    ※※※※※※※※

    Happy new year, guys!

    Thursday, December 20, 2007

    A 35.3M Question Mark

    我思考了一下 Hiroki Kuroda (黒田博樹) 的問題 -- 雖然早在 Odds & Ends 表示贊成 dufflin 老大的說法,但事後得出的 second thought 在標題已經下得夠明白了:對於 3-year 35.3M 將 Kuroda 帶到 LA 來一事充滿了疑問,這可以從 Dodgers 的需求、價錢以及 Kuroda 的 stuff...幾個方面來談。

    先來看看 Dodgers 的需求:仿照 這篇文章 裡所用的方法,個人將 07 年 11 位曾經為 Dodgers 先發過的投手做了個整理:

    NameGSIPRRA
    Penny33208753.25
    Billingsley20112433.46
    Lowe32198.331004.54
    Wolf18102.67554.82
    Wells738.67235.35
    Stults525.33176.04
    Tomko1579.33576.47
    Long-torso1576.33566.60
    Schmidt625.67207.01
    Kuo628227.07
    Loaiza522.67218.34

    上表中,幾位在先發與後援間游走的投手已經將其後援的成績移除,而 5 位 "實質的" No.1 ~ No.5 大概是長得這個樣子:

    NameGSIPRRA
    No.134213.677.153.25
    No.233193.284.603.94
    No.333197.12102.104.66
    No.432170.62113.635.99
    No.530142.50111.537.04

    以 07 年 NL 約 4.80 的 league average RA 來看,Dodgers 07 年 SP 的整體表現其實也差不多就只在 league average。

    在 Kuroda 入隊之前,Dodgers 08 年 rotation 有底的只有 Penny、Lowe 和 CBill,除了 CBill 在 08 年應該會多拿到 10+ 的先發機會,Loaiza 的 "回穩" -- 至少他不太可能交出一張 RA > 8.00 的成績單 -- 也稍稍可以期待,其它如有傷在身的 Schmidt、Kuo 倒是不容易讓人把籌碼押在他們身上。

    所以 Dodgers 需要 Kuroda?結論先別下得太早。

    個人為什麼要用這個 Virtual No.1 ~ No.5 的方法,最大的目的就是讓大家看看:咱們在 forum、media 一天到晚掛在嘴上的 No.x 投手 "virtually" 都是長什麼樣子!從 06 年至今,Dodgers 的 "Virtual" No.3 大概還能站在 league average,"Virtual " No.4 與 No.5 就完全只是 "不可抗力" 的用鳥人輪流出動而已 -- 畢竟任何一隊在每個星期的賽事裡都需要準備 5 名先發投手不是?

    兩年以來,Dodgers 的 No.4 與 No.5 嚴格講沒有固定的人選,雖然像 Wolf、Wells、Tomko 或 "long-torso" Hendrickson 等人都已不披藍袍,但別忘了我們還有蓄勢待發 的 McDonald、Kershaw 甚至 Elbert,假使 Schdmit 和 Kuo 的回復良好,在 No.4 與 No.5 打車輪戰並維持 league average 的 rotation 水準其實不是難事。

    換句話說:如果 Dodgers 不能夠找到一個足以做 "Virtual" No.2 以上的 SP -- 也就是 GS 33190+ IP< 4.00 的 RA (暗示 ERA 大概要在 3.6 ~ 3.7 左右),其實用不著貿然出手,不過 Ned Colletti 選擇押了 35.3M 在 Kuroda 頭上。

    也因此,我們現在要看的問題應該是:Kuroda 夠不夠格做一個 "Virtual" No.2?

    先說價格:這其實是太簡單的道理 -- LA 有的是錢,做為 fans 自然可以不在乎,但如果 Theo 可以用 6-year 52M 綁住 Dice-K,相較於在 Seattle 和 LA 之間抉擇 -- 據稱還比較 prefer "溫暖天氣" 的西海岸的 Kuroda,Dodgers 憑什麼出到 3-year 35.3M?別忘了 Dice-K 不只 stuff 勝過 Kuroda,甚至還年輕了 5 歲....

    再看看 Kuroda 在 NPB 的 11 年 成績,raw K/9 是 6.65,raw BB/9 則是 2.35,這也許會讓大家嚇一跳:Staff Ace 的 stuff 怎麼會只有這樣呢?但很抱歉,Hiroshima Carps 在擁有 Kuroda 的 11 年間都算不上是一支有競爭力的球隊,我們不需要用到 Dice-K 做為在一支 B 級球隊選 Ace 的標準。

    我想說的是:以 Kuroda 在 NPB 所交出的成績,在不做任何轉換的前提下,其 TTO (Three True Outcomes) 和現階段的 Brad Penny 是相近的。我相信沒有人願意把 Ace 一詞奢侈得冠在 Penny 的頭上,再說假使 Penny 所屬的是 Pirates 或 Nats 之類的球隊,他也會被捧成 Ace。By the way,Odalis Perez 在離開 LA 的時候不就是揚言要去 Kansas City 做 Ace 的嗎?

    Among other things,曾經被 Dodgers ex-pitching coach Jim Colborn 評為 "投不出 strike" 的 Kazuhisa Ishii (石井一久),在 Dodgers 前兩年的 K/9 可以衝到 7.x 以上,這個數字 比 Kuroda 在 NPB 的時候都還高

    長打方面,考慮 Carps 的根據地 "広島市民球場" 是個迷你球場,以該地為家並維持 career HR/9 在 1.00 以下應該不單是僥倖達成的任務,這一點或許是 Kuroda 可以給予 LA 的 silver lining。

    至於 Kuroda 會不會和 Takashi Saito (斎藤隆) 一樣 -- 來到 MLB 之後突然來個 "大躍進"?這一點個人持懷疑的態度。大家或許可以翻翻 Saito 在 NPB 的 成績,事實上 Saito 在 90 年代末期就逐漸出現衰退的現象,第二春則是從 01 年轉任 RP 後開始。原則上 SP 轉為 RP 之後在成績通常變得比較好看也是不爭的事實 (Dodgers 有個更好的例子叫 Eric Gagne...)。不可否認的是 Saito 到 MLB 之後 K/9 竄得離譜了一點,但 Kuroda 是來做 SP 的,自 NPB 輸入 MLB 的 SP 會 "逆勢上揚" 的案例是完全沒有見過,未來恐怕也不容易見到。

    總而言之,個人對 Kuroda 的 stuff 並不 impressive!Say,如果我們要從 Kuroda 的表現拿到 1+ WAA (Wins Above Average),given 200 IPs 與 4.80 的 league average RA,Kuroda 必須maintain 約 4.35 的 RA -- 大約是 Penny 在 06 年的水準,只是從 Kuroda 的 stuff 和年齡來看,我不認為這件事發生的機會是十拿九穩,部份世論對 Kuroda 的表現預估則是在 "ERA" 4.5 左右...

    如果 Ned Colletti 有認真的思考與評估,他應該會發現把 35.3M 拿去支付 Juan Pierre 剩下的合約 -- 也就是把 Pierre 直接 release,在未來的 4 年裡都可以替 Dodgers 添得 1+ 的 WAA,而這個作法已經不是十拿九穩的問題,而是 perfectly certain!這也是我最痛恨 Ned Colletti 的另一個地方 -- 即便 LA 殺伐 Pierre 的聲音有變大的現象,但 Colletti 仍然願意為 Pierre 講話,加上 Tomko 和 Hendrickson 的案例,這是典型的死要面子,不肯認錯。

    總而言之,我個人不欣賞 Kuroda 的 signing 並不只是價錢的問題而已,但錢已經花下去了,也只能期望 Kuroda -- 就算是 BABIP 的魔術也好 -- 能給 08 年的 Dodgers 一些有力的 boost。

    Tuesday, December 11, 2007

    Not a Firmly Good Signing

    在 Andruw Jones 以 2-year 36M 被帶到 LA 的時候,個人 "deriving OPS_Win" 的題目正好做到一半 -- 畢竟當時真有點開始相信 Joe Torre 將是 07 年 offseason 裡 Dodgers 唯一的一筆 transaction,所以一時半刻也不是很想認真去看 Andruw 的事。

  • Now That We've Got AJ...

  • Madboy 的 follow-up 是正論,真要說 07 年 FA market 的 3 位 CF -- Aaron Rowand、Torii Hunter 和 AJ,我個人認為 "可以收留" 的也的確只有 AJ,但前提是 Dodgers 不該繼續讓 Juan Pierre 做 regular。

  • Jones offers Dodgers plenty of options

  • 相較於 Madboy 的 "正論",Ken 在官網的這篇就是 "歪論"!如果這裡還 point by point 的去檢討 Ken 的 piece,那只是傷了大家的眼睛而已。話說回來,Ken 雖然上不達天聽,但和 Ned Colletti 比腦袋裡的 "sh*t capacity" 恐怕也很難分出高下,所以 Ned 幹出 Ken 所想的事也並非完全不可能。

    另一方面,最近在 LA Times 的 Dodgers 專區有一個 投票,讓大家來選擇 Dodgers 08 年的 best outfield,結果 Ethier + AJ + Kemp 的組合得到了近 70% 的票數;次高的 Pierre + AJ + Ethier 只得到 17% 左右,更別提 Pierre 的名字在 4 個選項裡出現了 3 次 -- 表示這個投票的設計沒有引誘 fans 來 dump Pierre 的意思。因此,Ned 最好不要學某 party -- 永遠只知道照顧 17% 的 "選民"。

    所以,大家都曉得 dumping Pierre 是好事 (except Ned Colletti, probably.),但是究竟有多好?

    Well,前兩個星期,個人花了些時間解釋一些主要 metrics 的 比較 以及 OPS_Win 的 內涵,針對各式各樣的評價方式 -- 在討論 AJ 的題目裡,仍然將使用最簡單明瞭的 OPS_Win 做為主要工具。只不過要計算 OPS_Win 還欠一樣東西:Forecasting -- 沒有 AJ 和 JP (Juan Pierre) 在 08 年的成績,是無法計算 OPS_Win 的。

    在這裡,我選擇使用 Tango 所發展出來的 Marcel 來做 projection,這是一個以 regress toward the mean 為基礎的 system,想安全的利用 Marcel 來 proejct AJ & JP 在 08 年的表現前,首先我們必須準備前 3 年的聯盟打擊資料 (也就是 05、06 與 07 年),分別給予 3、4、5 的 weight 後,再加入 1200 個 "weighted league average" 的 PA 做為 "regress toward the mean" 的 factor。

    Marcel 的可靠與否我們稍後再談,現在很快的把 Marcel 的過程走一次,已經知道或沒興趣的朋友,下面的區塊不妨跳過:

    ※※※※ Start of Marcel ※※※※

    以 forecast 1B (single) 的數目為例:

    AJ 在 05 / 06 / 07 年的 PA 數是 672 / 669 / 659、respectively,分別取 3 / 4 / 5 的 weight 後,得到的結果是 (weighted PA):

    Weighted PA = 3 * 672 + 4 * 669 + 5 * 659 = 7987

    AJ 在 05 / 06 / 07 年的 1B 總數則是 76 / 78 / 72、respectively,同樣取 3 / 4 / 5 的 weight,那麼 AJ 的 weighted 1B total 就是:

    Weighted 1B = 3 * 76 + 4 * 78 + 5 * 72 = 900

    接下來,我們把將 05、06 與 07 年的 AL、NL 打擊資料分別混作堆 (lumped together),然後把 "投手" 的部份捨棄並計算 league 1B 出現的 "頻率" (total 1B per PA),得到的結果是:

    Year1B / PA (1B per PA)Weight
    050.15863
    060.15974
    070.16035

    換句話說,給予一位 league average 的打者與 AJ 相同的 weighted PA (7987),他的 weighted 1B total 應該是:

    Weighted 1B Count = ( 0.1586 * 3 * 672 ) +
    ( 0.1597 * 4 * 669 ) + ( 0.1603 * 5 * 659 ) = 1275.689

    現在對 1275.689 做 scale down -- 因為我們想知道 1200 個 league average weighted PA (the "regress toward the mean" factor) 的 weighted 1B count,所以:

    Weighted 1B Count in 1200 PAs =
    1275.689 / ( 7987 / 1200 ) = 191.6648

    所以 AJ 在 08 年的 1B frequency 將是:

    ( 900 + 191.6648 ) / ( 7987 + 1200 ) = 0.1188

    再來要估計 AJ 在 08 年的 PA,Marcel 的方法是:

    Projected AJ's PA in 08
    = 0.6 * [PA in 07] + 0.1 * [PA in 06] + 200
    = 0.6 * 659 + 0.1 * 669 + 200 = 662.3

    因此,AJ 在 08 年的 projected 1B total 就是:

    662.3 * 0.1188 = 78.69921

    接下來我們只要針對其它的 batting events 做相同的動作,就可以得到 AJ 與 PJ 在 08 年的 forecast。

    ※※※※ End of Marcel ※※※※

    BP 的 Nate Silver 在 unfiltered 曾經留下一篇文章,他把 PECOTA、Zips、CHONE、Marcel...etc 的 forecasting system 做過整體的 evaluation:

  • 2007 Hitter Projection Roundup

  • 我想這篇文章裡比較值得參考的部份在於 average error 與 RMSE (說穿了,這兩個其實是同一類的東西...),至於最後的 regression 我倒不覺得很必要,畢竟在個人的觀念裡,這個 regression 沒啥好做的 -- Slope 應該永遠都是 "1",僅留下 intercept 來做 error corrector,是故沒有 fit 的必要。

    雖然 Marcel 在 average error 與 RMSE 裡的表現都不是最佳,但它也不是最差,同時不要忘了:You can't run PECOTA nor ESPN on your own, but you can go through Marcel by a couple of Excel sheets.

    By the way,Marcel 其實有考慮到 age 的 adjustment,基數是 29 歲,不過以 AJ 和 JP 的年齡來說,他們受到 age correction 的影響都不大,我把這個部份給捨棄不看。

    以下是 AJ 在 08 年的 Marcel projection:

    Marcel on 2008 Andruw Jones:
    PAAB1B2B3BHR
    6625737927235
    BBHBPSFAVGOBPSLG
    70118.249.338.485

    以下則是 JP 在 08 年的 Marcel projection:

    Marcel on 2008 Juan Pierre:
    PAAB1B2B3BHR
    71265414826104
    BBHBPSFAVGOBPSLG
    3772.287.331.373

    接下來我們就利用 Marcel 的結果來計算兩人 08 年的 projected OPS_Win,for Andruw Jones:

    0.025 * ( 1.7 * 0.338 + 0.485 - 1 ) * 662 = 0.9784


    For Juan Pierre:

    0.025 * ( 1.7 * 0.331 + 0.373 - 1 ) * 712 = -1.1554

    由於 OPS_Win 是以 league average 為基,所以我們不用考慮 CF 與 LF 不同 baseline 的問題。而以上的結果也就等於告訴我們:假使 Pierre 還留在 lineup 裡,Dodgers 08 年花在 AJ 與 PJ 身上的 total salary 27M 所換得 net win gain 是 -0.177 (0.9784 - 1.1554)。

    Ludicrous, huh?

    但如果我們能夠把 Pierre 換成 Ethier 或 Kemp,那麼達到 league average 的水準絕對不是太奢侈的的期待,同時也可以將 Pierre 造成的 -1.1554 WAA (wins above average) 的虧空給填補回來,27M 才是真的買回了 AJ 的 "淨值" 0.9784-win。另外,Dodgers 在 07 年的成績是 82-win,距離 88-win 的 NL Wild Card 安全值還需要 6-win above average,能給 Pierre 拿去浪費的空間是不存在的。

    如果大家還記得 J.D. Drew 在 06 年替 Dodgers 拿下的 OPS_Win 是 2.4 的話,你會發現 AJ 和健康的 Drew 其實是不能比的!甚至可以這麼說:AJ 和 Pierre 的差別在於 AJ 有 power 可以 cover 他不足的上壘能力,但 Pierre 沒有;另外,AJ 的生涯不甚拿手的 LD% 與 BABIP 也顯示:萬一 AJ 打不出 power,他就只剩下一只中外野的手套...

    因此 Dodgers 不應該也不能把 AJ 當救世主,with all due respect,he is not even close...

    至於成為 Halo 的 Torii Hunter 與待價而沽的 Aaron Rowand,Marcel 給他們的 projection 是:

    Marcel on 2008 Torii Hunter:
    PAAB1B2B3BHR
    65159310135227
    BBHBPSFAVGOBPSLG
    4765.279.336.482

    Hunter's 08 Projected OPS_Win:0.857

    Marcel on 2008 Aaron Rowand:
    PAAB1B2B3BHR
    65558910837320
    BBHBPSFAVGOBPSLG
    40194.284.347.458

    Rowand's 08 Projected OPS_Win:0.794

    講到 Torii Hunter,毫無疑問是一個被嚴重 overrated 的球員,Halos 的 5-year 90M 毫無疑問對剩下的 29 支球團來說是做了好事 -- 用這麼多錢除掉一個大地雷,更別提他的年紀還比較大;Rowand 則要找一張 5-year 的合約,29 歲、表現平平的他,要期待再出現 career peak 將是一種奢侈。

    總的說來,3 位 07 年 offseason 的主要 CF FA 的結果,Dodgers 已經確定是贏家,可惜的是 AJ 沒那麼好,Pierre 這個洞又太大....實話則是:這 3 個 CF 都不怎麼樣。諷刺的是,誰能想到 5-year 50M 的 CF Gary Matthew Jr. 和 5-year 44M 的 CF Juan Pierre -- 在 1 年之後,全都變成 LF 了呢?這樣夠不夠說明哪些人是真正的笨蛋呢?

    ※※※※ Update Dec. 12, 2008 ※※※※

  • Marcel 2008

  • Tribe Fan In Taiwan 的 Anakin 兄替大家找到了 Tango 所 publish 的 2008 Marcel Projection,很老實的講:在做這個題目前,我沒有發現這個連結。

    個人也把自己和 Tango 的結果做了比較,發現打擊三圍的部份和個人算出來的相去無多,但 playing time 卻有不小的出入,一時間我不太理解原因何在?畢竟 Andruw Jones 在 08 年也不過是 31 歲,以 29 歲為基來修正 playing time 似乎不是主要原因。

    這裡還是要說明一下:對個人在本文中所 projected 的 OPS_Win 來說,playing time 並不是最重要的因子,畢竟那只是 OPS_Win 裡頭以 "PA" 來代表的一個 multiplier;另外,Tango 是可以信任的 sabermetrician,如果個人早知道 2008 Marcel 的結果已經公開,I wouldn't have done this on my own!

    Thursday, December 06, 2007

    A Dirty Way to Derive OPS_Win

    這篇文章是 Morikawa Blue 開設以來的第 150 篇,算是個值得被紀念的標竿。說起來,還真不敢相信自己撐了這麼久。無論如何,現階段還有一些動力支持個人寫下去,這裡說 "動力" 指的是一方面驅使自己吸收新的棒球知識與觀念,此外就是所有在這裡與個人做過互動的朋友 -- 透過這樣的交流方式,相信彼此都或多或少有一些收穫。

    OK,進入正題。這一回個人想透過一些數字的 "魔術" 來 derive 在這個 Blog 經常提到、也經常用到的 metric -- OPS_Win。之所以說 "魔術",是因為 derive 的過程裡發現 OPS_Win 與 RE (Run Expectancy) 的巧妙關係,讓個人意想不到,相信也會讓讀這篇文章的朋友意想不到。

    現在,我們從 OPS 開始。

    原始的 OPS 是 OBP 與 SLG 的總和,個人把 OBP 重寫如下:

    OBP = ( 1B + 2B + 3B + HR + BB ) / ( AB + BB + SF )

    SLG 則是:

    SLG = ( 1B + 2 * 2B + 3 * 3B + 4 * HR ) / AB

    如果說 OBP 與 SLG 是 OPS 的成份,那麼 1B、2B、3B、HR 與 BB -- 這幾個 batting events 就是 OBP 與 SLG 的成份,當然,別忘了 "outs"。

    現在回頭來看看 RE,我們曉得在每一局裡頭會有 3 種出局數、8 種 runners on base 的情況,合計就是 24 種組合,以下是 RPG (Runs Per Game) 4.8 的 partial RE Matrix:

    StateRunnersOutsRE
    1---00.533
    21--00.926
    312-01.542

    考慮 BB 這項 batting event,從 state 1 轉移到 state 2 的 BB 價值 0.393 runs (0.926 - 0.533);從 state 2 轉移到 state 3 的 BB 則價值 0.616 runs (1.542 - 0.926)。Simply put,一個 BB 的價值將會隨著 situation 的不同而改變,要說明的一點是:這裡我們不考慮 context,請暫時把 WE (Win Expectancy) 丟到一邊去。此外,如果不經過 state 2,也就一定不會有 state 3,也就是說 state 2 出現的機會 "勢必" 要比 state 3 來得高。

    所以我們曉得在不同 states 的 transition 裡,BB 所價值的 runs 都不盡相同,那麼將這樣的 states 組合 (這裡是指 "有可能因 單一 BB 而 transit 的 states" -- 比方說 "無人出局 1 壘有人" 到 "無人出局滿壘" 就是一組不可能經由單一 BB transition 而達成的 states) 給抓出來,接下來依各種組合發生的 "機會" 與其 "所價值的 runs" 做 加權平均 (weighted mean),得到的就是一個 BB 的 weighted runs。我們管這樣的 weighted runs 為 BB 的 Linear Weights、or LWTS。在 RPG 為 4.6 ~ 4.8 的環境下,BB 的 LWTS 大約是 0.323,這可以解釋為一個 BB 的 average RE 是 0.323 runs。

    以下是所有與 OBP 和 SLG 有關的 batting events 的 LWTS:

    Batting EventsLWTS
    1B0.475
    2B0.776
    3B1.070
    HR1.397
    BB0.323
    Out-0.300

    別忘了,我們的目的是 deriving OPS_Win,為求簡單,我們把 SF 給捨棄,畢竟它對 SLG 沒有影響,對 OBP 的影響更是相當有限。

    有了這些 LWTS 後,我們來考慮聯盟平均,以下是 07 年 NL 的部份 batting events 的 total:

    AB1B2B3BHR
    894881568848985052705
    BBHBPSFOBPSLG
    8576934752.334.423

    對一位 regular player 而言,一個球季下來 大約會拿到 600 上下的 PA,藉此,我們將上述的 total 做一個 "scale down",也就是把每一個 batting events 的總和除以一個常數 (constant) 以得到一位約 600 PA 的 league average batter 的 "假資料":

    AB1B2B3BHR
    5429530316
    BBHBPSFOBPSLG
    5265.334.420

    在這裡,我使用的常數 (除數) 是 165。

    接下來,我們利用這位 虛構 (made-up) 的 league average 打者,考慮幾個 batting events 對 OBP 與 SLG 所產生的 marginal differential。比方說這位 average 的打者多打了一支 HR,那麼他的 OBP 會增加 0.0011、SLG 則增加 0.00659。

    又,我們在前面解釋 HR 的 LWTS 是 1.397,換句話說:如果想單單用 OBP 與 SLG 來 translate runs,對一個聯盟平均的打者而言,多打一支 HR -- 相對於增加 0.0011 的 OBP0.00659 的 SLG -- 會換來 1.397 的 expected runs (LWTS)。我們將這個部份的結果整理如下:

    EventLWTSOBP_DiffSLG_Diff
    1B0.4750.001100.00107
    2B0.7760.001100.00291
    3B1.0700.001100.00475
    HR1.3970.001100.00659
    BB0.3230.001100
    Out-0.300-0.00055-0.00077

    其中 OBP_Diff / SLG_Diff 所代表的是多加一個第 1 行的 batting event 對 OBP / SLG 所產生的 differential、respectively。

    如果你沒有跟上,從這裡開始也無妨。再解釋一次上面這個表格的意義:以 1B 為例,對於那位虛構的聯盟平均打者,多打 1 支 1B 會讓 OBP 增加 0.0011、SLG 增加 0.00107,然後拿到 0.475 的 expected runs (也就是 1B 的 LWTS),依此類推。

    現在我們有了 batting events 對聯盟平均打者的 OBP 與 SLG 的影響以及 related LWTS,下一個目的就是要建構一個完全由 OBP 與 SLG 所組成的式子來估計 Runs,也就是說我們的目標是:

    a * OBP + b * SLG = Runs ‧‧‧ (a)

    考慮多打一支 1B,上面的式子 (a) 會變成:

    a * ( OBP + 0.0011 ) + b * ( SLG + 0.00107 )
    = Runs + 0.475 ‧‧‧ (b)

    將 (b) 減去 (a),得到:

    a * 0.0011 + b * 0.00107 = 0.475

    重複那些與 OBP、SLG 有關的 batting events,即得到一組線性方程式 (a set of linear equations),我們將用這組線性方程式來解出其中我們想要的係數 (coefficient) a 與 b。以最小平方誤差法 (least square error) 得到的 best solution 是:

    283 * OBP + 163 * SLG = Runs ‧‧‧(c)

    現在來檢驗一下 (c) 夠不夠好?我們用它來估算一支 1B 的 LWTS:

    283 * (0.0011) + 163 * (0.00107) = 0.485

    可以發現這個數字與真實資料的 0.475 相當接近,以下是利用 (c) 計算 eLWTS 與實際 LWTS 的比較:

    EventeLWTSLWTS
    1B0.4850.475
    2B0.7850.776
    3B1.0851.070
    HR1.3861.397
    BB0.3110.323
    Out-0.282-0.300

    Just in case you wonder:eLWTS (283 * OBP + 163 * SLG) 與 LWTS 的 correlation coefficient 大約是 0.99 -- an almost perfect case!

    OK,deriving 的工作大致上已經完成了一大半,現在我們回頭看看得到的估計式,基於 1 個球季是 162 場比賽,我們把 162 做為常數從 (c) 式中提出來:

    Runs = ( 1.747 * OBP + 1.001 * SLG ) * 162

    假設以 600 做為一位 regular 打者一季的得到的 PA 基數,上面的式子可以寫成:

    Runs = (1.747 * OBP + 1.001 * SLG ) * 0.27 * PA
    Since ( 162 / 600 ) ~ 0.27 => PA * 0.27 ~ 162

    最後我們 honor 10 runs equal 1 win,把等號兩邊各除以 10,上面的式子就變成:

    Wins = 0.027 * ( 1.747 * OBP + 1.001 * SLG ) * PA

    Given the "made-up league average hitter", with OBP 0.333 0.334 and SLG 0.420,we have:

    1.747 * 0.333 0.334 + 1.001 * 0.420 = 1.004 ~ 1

    Consider "Wins Above Average"、or WAA, we have:

    WAA = 0.027 * ( 1.747 * OBP + 1.001 * SLG - 1 ) * PA

    Let's recall the original OPS_Win:

    OPS_Win = 0.025 * ( 1.7 * OBP + 1 * SLG - 1 ) * PA

    Almost identical, isn't it?

    從 derive 的過程裡,我們曉得 OPS_Win 其實隱藏的是 RE 的訊息,要說 OPS_Win "利用 OBP 與 SLG 來逼近 RE" 是合理且安全的。又,對絕大多數的野手來說,它們的 clutchiness 在經過一個球季的 long run 後會被 neutralized,所以 OPS_Win 的結果對大多數的打者來說將會很接近他們的 batting WPA -- 也就是球員的真實價值!

    另一方面,OPS_Win 還告訴大家一件事:OBP 在 translate runs 的時候,其 weight 是 SLG 的 1.7 倍左右。但別忘了,這是單純就 "scale" 的角度來看問題。不可否認的事實在於 OBP 的 range 是 0 ~ 1;SLG 則是 0 ~ 4,一位打者想增加 0.01 的 SLG,其難度和 0.01 的 OBP 是絕對不同的!

    最後想說的是:用來評價球員的 metrics 並不是複雜就比較好,OPS_Win 的可愛之處就在於它這麼簡單、沒有用到聯盟資訊、但還是能維持相當程度的正確性與真實性,更何況 OPS_Win 的 baseline 是最直截了當的 league average。這也是個人喜歡 OPS_Win 勝過 VORP 與 EQA 的最主要原因。

    ※※※※※※※※

    這裡有一篇 Dan Fox -- 少數極為用心的 sabermetrician -- 還在 THT 的時代所發表的一篇 "極為基本" 的文章,如果來這裡的朋友對數字有興趣,卻又說不出像 OPS 這種新一代的 metrics 好在哪裡時,建議瀏覽一下。

  • Run Estimation for the Masses

  • 在該文後面的部份,Dan 把 OPS 的其中一部份提了出來,寫成下面的型式:

    (4/PA) * [(0.5*S) + (0.75*D) + (1*T) + (1.25*HR) + (0.25*W)]

    其中 S = 1B、D = 2B、T = 3B、W = BB。

    注意上式中加了 underscore 的那些 coefficients,是不是和前面所提到的 LWTS 很相近?所以 OPS 為什麼會是一個既簡單又 superior 的 metrics,原因就在這裡!

    ※※※※※※※※

    個人在 上一篇 文章提到一件事:

    說 EQRAA 與 OPS_Win 的線性關係維持在 0.9 以上的 correlation coefficient 是安全的 (這僅僅代表 EQRAA 與 OPS_Win 的 "方向" 一致)。

    不過 CC (correlation coefficient) 0.9 究竟代表什麼?它其實只是給我們一個方向,一方面代表 EQRAA 越大、OPS_Win 也就越大;反之 EQRAA 越小,OPS_Win 也越小,就這樣而已。另一方面,如果利用 EQRAA = a * OPS_Win + b 來求 a 與 b 的最佳解,CC 越高,表示用 OPS_Win fit 出來的 EQRAA 結果會更像一條直線。

    所以即便 EQRAA 和 OPS_Win 有 0.9 以上的 CC,這也 "不盡然" 代表 EQRAA = OPS_Win,除非求出來的 a = 1 & b = 0 -- 這是 OPS_Win derive 過程中 eLWTS 與 LWTS 的 case。

    Tuesday, November 27, 2007

    How Real Are These Metrics?

    我們可能常聽到類似以下的 comment:

    • Juan Pierre 07 年的 VORP 是 16.2。

    • Nomar Garciaparra 07 年的 OPS_Win 是 -0.831。

    • Luis Gonzales 07 年的 EQA 是 .271、EQR 是 64.9。

    話說回來,這幾個 metrics 真正的內涵是什麼?我們可不可以從幾個 metrics 去翻譯球隊所拿下的 real wins?或者這些 metrics 只是虛構且悖離事實的 scale?講得更具體一點:假使我有一支 82-win 的球隊,同時我曉得要進入 playoff 的安全範圍大約要 88 ~ 92 wins,那是否代表在 offseason 裡必須努力為球隊掙得 6+ OPS_Win、60+ VORP 或是 60+ EQR 的 net gain?

    利用 offseason 的機會,我們不妨來看看幾個有名的 metrics -- OPS_Win、VORP and EQA -- 的真實性。換句話說,如果一個 GM 要拿這 3 個 metrics 來做為 transaction 的依據,它們所代表的內涵是否就真如數字面上所顯示的一樣?他們 honor 10-run equals 1-win 嗎?這些 metrics 在使用上需要做怎麼樣的轉換?



    Approach

    首先必須說明的是:我們將借用部份的 WPA 資料來做驗証。

    由於 WPA 是將球隊所贏得的勝場分配給每一位球員,一支球隊的打擊、先發投手與後援投手的 WPA 總和會等於該球隊的 wins above average,所以我們直接拿球隊在打擊部份的 total WPA -- say "BWPA" -- 做為與 OPS_Win、VORP 與 EQR 比較的基準,看看這 3 個 metrics 究竟夠不夠 "真實"。

    在實做之前,先回答 2 個可能讓人產生懷疑的點:

    • 守備的分數到哪裡去了呢?
      在 WPA 的 scope 下,不論球隊的守備是好是壞,都必須由投手群來 "概括承受",也就是說守備的分數是算在投手群身上的。同時 OPS_Win、VORP 與 EQR 事實上也都沒有包含守備的因子,是故用這 3 個 metrics 與 BWPA 來比較是合適的。

    • Clutch 的因素怎麼處理?
      的確,屬於 neutral metric (接近 10-run equals 1-win) 的 OPS_Win、VORP 與 EQR 都沒有考慮 clutch。只不過對絕大多數球隊來說,經過一季的 long run,clutch hitting 的影響被 neutralize 的可能性是極大的!事實上,clutch 最大的問題會出在 "後援投手" 的環節,和用來做比較基準的 BWPA 與投手群是不相干的。因此 只要 OPS_Win、VORP 與 EQR 夠準確,suppose 不該與 BWPA 有太大的差距。

    接下來,我們用 Dodgers 為例來跑一次:First thing first,Dodgers 07 年的 BWPA 是 -4.98 -- and you know how bad these Dodgers performed in 07 season。



    OPS_Win on Dodgers' Offense

    回顧一下 OPS_Win 的式子:

    OPS_Win = 0.025 * (1.7 * OBP + SLG - 1 ) * PA

    OPS_Win 誕生的原因在於 SLG 的對 OPS 的膨脹 -- 雖然 OPS 是一個最簡單、最直接評價球員的方式。在 SLG 的 scope 下,把 1 支 HR 的價值當成是 1 支 single 的 4 倍是絕對不合理且不真實的!此外,假設有兩位 OPS 都是 0.800 的選手,一位的 OBP/SLG 是 .300/.500、另一位是 .350/.450,給予相同的 PA 數,他們的 contribution 絕不會一樣。

    所以 OPS_Win 調整 OBP 與 SLG 的權重來解決上述的問題,再對 league average 做 offset。而 OPS_Win 的式子也等於告訴大家:一個 league average 的打者,每個 PA 的價值大約是 0.025 runs wins。

    計算 OPS_Win 不需要太多技巧:Dodger hitters 在 07 年所賺到的 total OPS_Win 是 -3.72 wins above average



    VORP on Dodgers' Offense

    由於這裡使用的比較基準是 BWPA -- 是 batting wins above average,但 VORP 的 baseline 不是 league average 而是 replacement level,所以必須先做 baseline 的轉換。

    根據 Keith Woolner 的說法,VORP 的基準是 "一支完全由 replacement level 所組成的球隊,一季大約可以拿到 44-win",那麼針對 replacement level 的打者,他的 RC (Runs Created) 大約是 league average 的 78.3%;相對的,replacement level 的投手,其 RA 是 league average 的 127%。

    請注意,在這裡我們所有的 replacement level 都是以 BP 的定義為基礎,與 THT 的 WSAB 的 baseline 不同!Just in case you wonder:WSAB 的 baseline 大約是 WPCT 33% 的球隊、VORP 則是 WPCT 27% 的球隊。關於 VORP 的 baseline 的細節,有興趣瞭解的朋友請參考 這一篇

    於是我們把 RA 的部份從 replacement level 提高到 league average,運用 Pythagorean Formula (power = 2),考慮一支以 replacement level 的打者league average 的投手 所組成的球隊,一季可以得到的勝率將是:

    (0.783^2) / (0.783^2 + 1^2) = 0.380

    換算出來就是 162 * 0.38 = 61.56 wins。

    由於我們預期一支完全由 league average 所組成的球隊可以拿到 0.5 的 WPCT、或 81-win,而在這支 "average" 的球隊的打者都換成 replacement level 時剩下 61.56-win。換句話說,league average 與 replacement level 的打者所組成的 lineup 一季下來的差距將是:

    81 - 61.56 = 19.44 wins

    考慮 35 位 07 年登記有案的 Dodger hitters,其 VORP 的總和是 187.1,粗略的以 10-run equals 1-win 來計算就是 18.7 wins above replacement level、或是 -0.73 wins above average (18.71 - 19.44)。



    EQR on Dodgers' Offense

    原則上,EQR 是一個 "絕對" 的 scale,它完全沒有任何 baseline 的 offset,當我們想將 EQR 轉換成 EQRAA (EQR Above Average) 時,必須借重 EQA 的幫忙。因為 EQA 的催生者 Clay Davenport 說 .260 的 EQA 代表 league average、.230 代表 replacement level。這個 blog 也曾探究過 EQA 的內涵,有興趣瞭解的朋友請參考 這一篇

    由於 EQR 與 EQA 有這樣的關係:

    EQA = ( 0.2 * EQR / OUT )^0.4

    我們可以將 EQR 可以重寫如下:

    EQR = ( EQA^2.5 ) * 5 * OUT

    考慮 .260 的 EQA 為 league average,EQRAA 就可以寫成:

    EQRAA = EQR - [ (.260)^2.5 ] * 5 * OUT

    Follow 上述的結果,07 年 35 位 Dodger hitters 的 total EQRAA 是 -6.14、or -0.61-win above average



    So, the winner is...?

    單由 Dodgers 來看,OPS_Win 的估計似乎是 "最接近事實" 的,不過不可否認的是 OPS_Win 可能是 3 個 metrics 裡最簡單、所用的 baseline (league average) 最直覺的一種,相較於根本不曉得怎麼算出來的 VORP、以及用到整個聯盟資料來 "作弊" 的 EQA 相比 -- 既然不能在 accuracy 上得到 significant edge,使用上的意義與價值也就相對的降低,總的說來,個人以為 OPS_Win 是 3 個 metrics 最有效率的一種。

    這裡再給幾個 tips:

    • 對大多數的 teams 而言,OPS_Win、VORP 與 EQR 換算的結果其實都還算接近,而 OPS_Win 的 fluctuation 較其它二者為穩定;同時,我們甚至可以用 BWPA 與 OPS_Win 的差距來做為評價 team batting clutchiness 的 quantity。

    • 07 年受到 "clutch" 影響最大的就屬 D'Backs,即便是打擊方面,保守的估計 D'Backs 的 clutchiness 大概讓他們拿回了 5-win above average,這幾乎相當於把一個 league average 的打者換成 A-Rod 的差距。

    • VORP 針對每一個守備位置 apply 不同的 replacement level,因此帳面數字上和 OPS_Win 相比並沒有太良好的線性關係,不容易從 individual 去探討正確性的問題。

    • 說 EQRAA 與 OPS_Win 的線性關係維持在 0.9 以上的 correlation coefficient 是安全的 (這僅僅代表 EQRAA 與 OPS_Win 的 "方向" 一致),只是 EQR 對 SLG 較高的選手有 "給分過高" 的現象。

    個人把 NL West 的計算結果 PO 在這裡做參考:

    TeamBWPAOPS_WinVOA/10EQRAA/10
    D'Backs-1.21-6.64-7.45-6.04
    Rockies9.496.086.863.37
    Padres-6.56-6.98-4.590.41
    Dodgers-4.98-3.72-0.73-0.61
    Giants-10.97-10.27-10.47-7.15

    其中 VOA 代表把 VORP 的 baseline 移到 league average 的結果;EQRAA 為 EQR Above Average,除以 10 則代表把 runs 轉換為 wins。

    我不敢、也不能說個人証實了這幾個 metrics 的真實性,但希望傳達的是這幾個 metrics 所代表的意義與互相轉換的過程,建議有興趣的朋友動手玩玩看。

    ※※※※※※※※

    Additionally,這裡提一個可能很多用 EQA 的朋友沒有想過的問題:

    打者 A 在 07 年用掉 100 outs,得到 EQR 15;打者 B 亦用掉 100 outs,得到 EQR -15,那麼兩人的 EQA 分別是多少?

    要計算 A 的 EQA 沒有問題:

    EQA_A = ( 0.2 * EQR_A / outs_A )^0.4 = 0.246
    Where EQR_A = 15, outs_A = 100

    然後,當我們如法泡製的想要計算 B 的 EQA 時,不管用 Excel 也好、工程計算機也好,得到的結果都是 "Error",why?其實,這只是國中生程度的問題,在做 power 運算的 caveat:"Negative number to fractional power is an illegal call"!

    即便如此,就 EQR 的 derivation 而言,它的確可能跑出 "負值",針對這樣的球員,他們的 EQA 又應該如何計算呢?Clay Davenport 雖然沒有明講,但他的結果是這樣弄出來的:

    • 如果某球員的 EQR 計算出來是 "負值" (小於 0),那麼就先把它變成 "正值",套用數學的講法 -- 取 "絕對值"。

    • 計算出 EQA 之後,再把 "負號" 加回去。

    所以在上述的命題裡,B 的 EQA 就是 -0.246。然而,這是完全合理的,我們可以從下面這個式子來看 (EQAR: EQA Rate):

    EQR = EQAR * OUT
    Where EQAR = ( EQA^2.5 ) * 5

    EQA 其實就 "很像是" 某位打者 "每個 out 的價值 (分數)",那麼如果 EQR 已經小於 0,EQA 當然也應該要小於 0。話說回來,除了投手以外,能夠得到 negative EQA 的打者恐怕也不多。

    Friday, November 16, 2007

    Mythbusters: Baseball Special

    不曉得這裡有沒有 Mythbusters 的 fan?

    Mythbusters 是 Discovery Channel 的一個單元,中文翻譯是 "流言終結者",這個工作團隊以 Jamie Hyneman、Adam Savage 為首,build team 則有 Kari Byron、Tori Bellici 和 Grant Imahara,他們多半是做特效出身,總是在各處搜尋一些千奇百怪的流言,然後用實際的實驗來驗証其可靠性 -- Confirmed, Plausible or Busted。我個人是很喜歡這個系列 -- 即便它的播出時段和我的睡眠時間有些小衝突。

    在 11 月 15 日,最新一季的 Mythbusters 制作了一集 "baseball special",他們要以科學實驗來與一些廣為流傳的 baseball myth 鬥法,甚至 future HOFer Roger Clemens -- 自稱是 Mythbusters 的 big fan -- 也為這個特別單元捉刀。個人在這個特別的 episode 裡做了一些筆記,要特別強調的是:我只是想把這些實驗的過程與結果和來這個 blog 的朋友分享,但絕不預設任何可信度的立場。

    A corked bat can hit a ball farther than an uncorked bat.

    毫無疑問,這則 myth 來自 former Cub 的大棒子 Sammy Sosa,記得是在 03 年吧?Sosa 的斷棒被發現裡頭有 cork,後來他遭到禁賽 7 場的處分,聲名與評價也大幅滑落,因為世論普遍認為用 corked bat 擊球會比 uncorked bat 要遠。

    Jamie & Adam 在驗証這則 myth 時:

    • 製作了 corked bat (Duh!)。

    • 測得一般人的揮棒速度 (動作開始到擊球點) 大約是 60mph。

    • 利用在 "pirate special" 的 episode 裡所打造的空氣砲來發射 MLB 的比賽用球,將球速控制在 80mph。

    • 改裝 Grant 製作的 "揮刀機器人" 成為 "揮棒機器人",將揮棒速度調整為 60mph。

    • 調整時間差,讓空氣砲在射出球的時候瞬間啟動 "揮棒機器人",讓 "揮棒機器人" 正確的擊球。

    • 利用 high-speed camera,比較 real bat 與 corked bat 擊中球後,球往反方向飛出去的速度。

    他們的機器後來調整到每一個擊出去的球都是 line drive,據說光是 fine tuned 就花了 Jamie 和 Adam 兩天的時間。

    結果發現:用 real bat 回擊 80mph 的球,球大約也是以 80mph 往回飛;但換上 corked bat 之後,球往回飛的速度幾乎打了對折。這是簡單的物理學:對於相同質量的物體,初速度大,所含有的動能也就比較大!Corked bat 除了質量較輕,中間的 cork 材質也可能吸震,擊出去的球也就沒辦法飛得比較遠。

    03 年的那件醜聞,或許真如 Sosa 所說 -- 他拿到了練習用的球棒,畢竟這個實驗說明 corked bat 對擊球的遠度沒有幫助。

    Result: Busted

    ※※※※※※※※

    A dry ball travels farther than a humid ball when hit.

    這應該已經不構成 myth 的要件,起因在於 Rockies 的主場 Coors Field 近兩年來將比賽用球經過 humidor 的處理,造成這座高海拔球場產出的 HR 數明顯減少。

    Build team 首先將實驗的規模縮小:把 5 個於相對溼度 90% 的 humidor 放置一星期的球與 5 個對照組由 125-inch 的高處落下,發現放置於 humidor 的球的第一次彈跳高度約比對照組短了 14% (91cm : 106cm)。

    Say,假使一支 HR 的飛行距離是 440 feet,減少 14% 的話就會變成 378.4 feet,這將越不過 Dodger Stadium 的中外野 (396 feet),不過真實的情況當然沒有這麼單純。

    接下來 Grant 的機器人出動,在球場上以相同的方式分別將置於相對溼度 10%、50% 與 90% 的 3 種球分別擊出,發現球所飛行的距離與它們所放置的 humidor 的溼度成負相關 -- 越溼的球越飛不遠。即便如此,build team 仍然認為有許多不確定因素存在 (e.g: 風向)。

    Result: Plausible

    ※※※※※※※※

    Does a curveball really curve? Is there such a thing as a rising fastball?

    關於這個部份,Clemens 在節目中示範了 fastball、curveball 以及 slider 的投法,他說到變化球的關鍵在於出手時,球的自轉軸傾斜角度、縫線與氣流的切割方式。OK,個人對於棒球的認識是建立在數字資料的基礎,球路這方面我實在無力多加著墨。總之,curveball 在 high-speed camera 下的確是會 curve 的。

    Build team 甚至跑了一趟 NASA Ames 研究中心。研究員 Mehta 為大家 demo 了像是 "棒球的風洞 (wind tunnel) 實驗" -- 以流體模擬氣流,旋轉棒球並加入有色的染料藉以表示氣流的流動方式,從這個簡單的實驗裡可以看得出來 -- 好比說 curveball 之所以會 curve,就是因為球的旋轉使得底部的空氣負載力降低,球才會向下掉。

    那麼 rising fastball 呢?Mehta 表示:高速飛行中的棒球無論以什麼角度旋轉,最多都只給予球重量約一半的昇力,fastball 如果真能 "rising",昇力至少要與球重相同。因此也就沒有 rising fastball 的存在。

    Result: Rising fastball, busted

    ※※※※※※※※

    Sliding into a base is quicker than running when you can't overrun the base.

    Jamie、Tory 與 Grant 3 人在兩個壘包間裝上計時器,計算滑壘 (sliding) 停止與直接減速剎車 (running) 在時間上的差別,得到的結果分別是:

    NameRunningSliding
    Tory3.6243.572
    Grant4.133.93
    Jamie4.0763.976

    看來使用滑壘的技巧對於不能 overrun 的壘包要比直接減速要快一點。不過請不要誤會:這個實驗的前提是 "不得 overrun 的壘包"。滑壘的確能在極短時間內消耗掉跑者的速度所產生的慣性,相對於直接減速會有較慢的結果一事,問題的重點則在於跑者接近壘包時會下意識的降低自己的速度以防止衝過頭。至於 diving 的意思則和 sliding 差不多。

    換句話說,當最終的目標是一壘 -- 也就是可以 overrun -- 的情況下,用滑壘的方式是肯定不會比直接衝過去要快的!所以當我們看到 Jeff Kent 有時候會用 diving 的方式去搆一壘壘包,這其實是無腦的作法,他沒有必要在可以 overrun 的前提下刻意把自己原本的動能給耗掉,plus,diving 受傷的機會比 sliding 要高。

    Result: Confirmed

    ※※※※※※※※

    Can a baseball be hit so hard that the hide comes right off of it?

    這則 myth 有趣的地方在於有人說:如果打者夯得夠大力,就有可能把棒球打到 "皮肉分離"。Jamie 和 Adam 再度使用空氣砲做測試,結果在 200mph 的時候,木棒折斷;最後把壓力增大到 150psi、球速達到 437mph 之後,碰到球棒的球才好不容易 "炸開"。

    只不過很明顯的,不論是 200mph 或 437mph,這都不是人類可以到達的速度。

    Result: Busted

    ※※※※※※※※

    在節目結束後,個人突然有了一個想法:mythbusters 在進行實驗時為什麼要用到像是揮棒機器人、投球空氣砲...etc 之類的東西?其實很簡單:同樣的動作做 100、1000 次,能夠維持一致的只有機器人,拿打者的揮棒來說,可能僅僅是幾 ms 的時間差或甚至 1/100 cm 的高低差,HR 就變成一個 fly out。

    換句話說,再怎麼好的打者,他們的一揮棒、一投球,其實多少都有一些 randomness 的成份在內。當然,intangibles 應該在實驗中盡可能排除,但在真實的比賽裡,這些 "noise" 則必須被 live up with。

    也許....就是這些 randomness 與 noise,讓 sabermetrics 展現了它們 powerful 的一面?

    Wednesday, November 14, 2007

    Still Better Hold Still

    自從 Joe Torre 確定來到 LA 執兵符後,雜七雜八的交易傳言似乎也直線上昇,連已經退休的 Bernie Williams 的名字都出現,真教人不知該如何消化這些廢物點心。

  • Colletti explores free-agent options

  • 也許這篇文章對台灣的球迷朋友來說,最大的消息是 Tsao 選擇 (elect) 成為 FA。Well,如果哪支球隊的 40-man roster 填不滿,一張 incentive-laden 的合約是可以期待的。Good luck, Tsao!

    Dylan Hernandez 針對 GM 大人的談話,提出了不少 Dodgers 可能 go after 的 FA,但是像 Mike Lowell、Torii Hunter、Aaron Rowand....這些傢伙可都是大地雷,任何一位加入了現在的 Dodgers,陷球隊於災難是完全可以預期的!

    且先避談 Ned Colletti 在 upcoming 的 Hot Stove League 裡要如何整頓 Dodgers,即便他 holds still,08 年的 Dodgers 其實已經有一個不錯的 lineup:

    C Russell Martin
    1B James Loney
    2B Jeff Kent
    3B Andy LaRoche
    SS Rafael Furcal
    OF Andre Ethier
    OF Matt Kemp
    OF Juan Pierre

    由 Tony Abreu、Nomar Garciaparra 和 C.L. Hu 所組成的 bench 可以給 Dodgers 足夠的深度,因此除了 SP 的部份,我看不出來 Dodgers 究竟需要簽什麼 FA。那麼如果 Colletti 願意來個 "冬眠",對 08 年的 Dodgers 會有相當大的助益。

    By the way,假使我沒有算錯,Dodgers 在 08 年的 amateur draft 可以拿到 overall 的 15th pick,也就是說 08 年 1st round 是無論如何被保証、不會因為簽了別隊 FA 而賠掉!這當然是好消息,但會否造成 Colletti 提前展開他的 offseason spending spree 就不得而知了。

    ※※※※※※※※

    其實不是故意把 Pierre 的名字列在上述的 lineup 裡,但想想看 07 年的 Brett Tomko -- 不過是 4M 的 annual salary、毫無貢獻、硬是拖到快 831 才被 released,多少說明 Colletti 對於自己燒鈔票的 "所在" 有多麼不死心!基於無奈,如果不是那一支球隊願意把 Pierre 牽走,想見不著他的名字在 active roster 裡,還不如期待他給車撞,然後被 put on 1500-day disabled list...

    此外,傷癒歸隊的 Jason Repko 如果能有些好表現,讓 Torre 對他 "falls in love" 進而 benches Pierre,其實也並非不可能。

    Torre benches Pierre?相信有人會認為我在說笑話!在此咱先 recall 一下 07 年 Grady Little 對 Pierre 的處置:

    • Pierre 入隊時搶走了 Little 原本的背號 "9"。Little 則宣稱 "如果 Pierre 打得不好隨時要把背號拿回來"。這麼看來,Little 對 Pierre 在 07 年的表現還挺滿意!

    • Little 由於輪休的緣故,在 07 年首度沒讓 Pierre 先發就出了事 -- Pierre 對著媒體發瘋,說他是個可以 162 場的料,自此,Little 用三秒膠把 Pierre 黏在每一個 Dodgers 去過的球場的 CF。

    Torre 的背號不會也沒有被 Pierre 拿走,不過要看出來 Pierre 有多糟亦不需要借一個 Albert Einstein 的腦袋,以 Torre 的名氣與 "威嚴",不像是 Pierre 放放嘴砲就能打動的人。也因此如果 Pierre 真的被 Torre 冷凍,他老人家的到來 -- 07 年 offseason Dodgers 的第一筆 transaction -- 就真的是個不小的 "upgrade"。

    與其說個人對 Torre 挑得太兇,還不如說對他的期待 "和太平洋一樣深" (Oh my, that's Boras' bit!)。

    ※※※※※※※※

    個人在 10 月 7 日回了篇 comment 來表達對 A-Rod 事件在未來發展的看法,最後是這麼說的:

    A-Rod 的 opt out 期限是 World Series 結束後向後算 10 天,我個人覺得事情的發展會比較像是 Yankees 用大約 5-year 140 ~ 150M 的 contract extension 來交換 A-Rod 的 opt out。

    Boras 現在對他的最大咖客戶已經喊價到 10-year 300M 之譜,個人不認為有球隊的 GM 蠢到對這個數字低頭,畢竟錢的問題或許還是其次,癥結在於對一個 32 歲的 FA 給 10 年合約無論如何都是件不合理的事。

    假設以 30M 做為 A-Rod annual salary 的底限,合理的長度不該超過 40 歲,換句話說在幾個有錢的球團裡,能給予 A-Rod 的底限應該就在 8-year 240M 上下,我相信這個數字和 A-Rod 未來的合約應當相去不遠。

    僅管如此,誰也不曉得 McCourt 究竟會不會對 A-Rod 感興趣?只不過無論答案為何,和 Joe Torre 的到來 "必然" 扯不上關係!這是很簡單的邏輯:就算 Torre 接受了 Yankees 08 年的 offer亦不代表 A-Rod 不會考慮 opted out

    這麼說好了:A-Rod 後來所 opted out 的是 3-year 81M,加上預想的 extension 的 5-year 150M 就等於是 8-year 231M,和上述所估的 240M 其實相去無多。Let alone Rangers 還得負擔原合約 81M 中的 27M!對 Yankees 來說,這根本就是完全可接受的範圍,也是個人認為 Yankees 會給出 5-year 150M 左右的 contract extension 的原因。

    話說回來,如果 Dodgers 願意把 Furcal 給交易出去,然後用 8-year 240M 將 A-Rod 帶回 LA 做 shortstop -- 不要懷疑,我沒有寫錯,就是 shortstop,個人必定會舉雙手贊成!

    Thursday, November 08, 2007

    Miscellaneous Notes

    以下是 07 年第 4 季的日本卡通 みなみけ (南家) 的一個橋段,左邊的是南家的三女‧千秋,右邊的是次女‧夏奈,兩個人在玩腦筋急轉彎 (!?):


    千秋:赤い帽子を被ると、涙を流して小さくなるものは何だ?
    (戴上紅色的帽子,邊流眼淚然後變小的東西是什麼?)



    夏奈:連敗中のカープファン...
    (連敗中的鯉魚隊球迷...)

    如果這裡有 Reds 的球迷,很抱歉,圖片純屬巧合。

    先說明:夏奈 的答案是不對的!但裡頭 "鯉魚隊" 倒是近日出現在 rumor 中心的 Hiroki Kuroda (黒田博樹) 所屬的球隊 -- Hiroshima Touyou Carp (広島東洋カープ),如眾所週知,Kuroda 是 Carp 的 Ace。

    根據 Daily News 的 Tony Jackson 的報導,Kuroda 的價碼像是在 3-year 21 ~ 24M 之譜、與 Dice-K 不同的地方則在於 Kuroda 將以 FA 的身份挑戰 MLB 而非 posting system,是故 Dodgers 如果想追他,額外的 posting fee 是不需要的。可憐的 Carp,他們本來就是支很窮的球隊,近年來已經成為 NPB (Nippon Professional Baseball) CL (Central League) 的放牛班了,而這一回 Kuroda 的離隊還是沒能帶給母隊發財的機會。

    An easy question: 如果 Cashman 可以用 5-year 20M 綁住 Igawa;Theo 可以用 6-year 52M 拿下 Dice-K,LA 憑什麼 offer 3-year 24M 給 Kuroda?這種無厘頭的價碼,最終的結果必然是 "Screw up the market and everybody"。

    有一點要講明:現在的我已經沒有足夠的能力談 NPB,畢竟我離開那個圈子很久了。記得最後一次研究 NPB 應該是 06 年上半球季結束的時候:當時將 CL 的幾位 Ace 做過一次 adjusted K/9 的評估,其中包括了 Giants 的 Uehara (上原)、Dragon 的 Kawakami (川上)、Yankult 的 Ishii (石井)、Tigers 的 Igawa (井川) 和 Carp 的 Kuroda (黒田),結果 Kuroda 是敬陪末座 (6.89),最好的則是 Uehara (8.59)。不用懷疑的是:這樣的研究並不具備預測能力,當時的重點是在強調 "Raw" K/9 可能發生的 biased。

    Astonishingly,Ishii 在上面 5 位 CL Aces 裡居第 2 位 (8.50),這裡的 Ishii 正是 02 ~ 04 年間在 LA 混飯吃的那一位;Igawa 就不用提了 -- Wang 的隊友,now a Yankee,當時的 K/9 在 5 位 Ace 裡排第 4 -- 也比 Kuroda 多出 1 以上。

    對一個從 Far East 輸入的投手,"K" 應當是最重要的原始指標,看看 Kuroda 近年來在 NPB 的 stats -- 如果他有機會成為 Dodger,個人很難期待他有好的演出,或許要靠一些 BABIP 的魔術來撐出 reputation。

    Nevertheless,我沒有忘記 Saitoh (斎藤) 與 Okajima (岡島) 的成功案例 -- 兩人的 K/9 從 NPB 到 MLB 反而 skyrocketing,只不過 Kuroda 的價碼實在不是一個讓人想去冒的險。


    ※※※※※※※※

    無聲無息的,Tsao 被 "下放小聯盟",而且是 outright assignment,所以大家不用懷疑為什麼 40-man roster 上找不到他的名字,這即是與 optional assignment 的差別所在,plus 球員在頭一次被 outright assignment 的時候無法拒絕的。此外,成功的 outrighted 也就代表 Tsao cleared 72 小時的 outright waiver。

    ######## Correction ########

    Anakin 的 comment 指出了上文中關於 outright assignment 細節的錯誤:

    Tsao 的 arbitration eligibility 是因為他已經有 3 季的 ML service time,而不是 Super 2。累積了 3 季的 service time 的 Tsao 因此 不適用上述 "首次 outright 不能拒絕" 的條例,事實上他可以選擇不接受 outright assignment 而成為 FA。

    因此,Tsao 此次的 outright 應當是出於自願 -- 也就是 accept outright assignment。

    #########################

    對一位已經 arbitration eligible 的球員,雖然有點情何以堪,但也實在找不出抱怨的對象。換個角度想:如果 Tsao 08 年還留在 Dodgers,他將有更充分的時間養傷與調整,甚至不需用到最後一個 option,個人認為這一次對 Tsao 的 outright 是個 good move。

    至於 Kuo 又如何?經過了 07 年,Kuo 已經 out of option,同時在 04 年也挨過一次 outright assignment,現在的 Kuo 如果不點頭,Dodgers 就不能 outright 他第 2 次。換句話說,在 Kuo 不接受 outright 的前提下,LA 想留用他,08 年的 opening day roster 似乎非得留一個 spot。


    ※※※※※※※※

    在 11 月還沒過完之前,Dodger fans 大可以過幾天好日子,暫時別去想太多 offseason 的事 (But keep you finger crossed.),Hot Stove League 最熱的時候還沒有到。

    簡單的說:球團在失去 Type A 或 Type B 的 FA 時候 (詳情請參考 07 年的 NLAL Elias Ranking),如果有事先 offer salary arbitration 且遭拒絕,在該 FA 被他隊簽走後,球團將獲得翌年 amateur draft 的 compensation pick。但如果在 12 月 2 日前就猴急的簽下他隊 files FA 的 Type A 球員,砸錢的球隊必須 無條件 賠上他們在翌年 amateur draft 的 1st round pick -- 除非在 "first-15" 的保護下。

    First-15 所指的是在 amateur draft 的 1st round 的前 15 順位,這 15 個 picks 不得用於補償 signing Type A 的 FA 球員。是故, Cubs 在 06 年連 12 月都等不到就早早的綁走 Soriano 的動作並不會讓他們賠掉翌年 draft 的 1st-round pick。

    至於 Type B 則是直接補給失去 FA 球員的球團一個 sandwich pick,根據 06 年 offseason 裡 MLB 與 MLBPA 訂下新制中,Type B 所補償的 sandwich pick 不需向簽下 FA 的球隊 charge。

    想瞭解更多的朋友請到 Tribe Fan in Taiwan這篇 研讀。主人 Anakin 一直是 transaction rule 方面的達人 -- 雖然他消失了頗長一段時間。

    原則上在 12 月 2 日以前,咱的 GM 大人 Ned Colletti "應該" 都不會有動作 (應該說絕大多數 GM 都不會有動作)。而個人當然 "希望他沒有動作",同時學著去感謝 Logan White 與他的 staff 在 farm system 上所下的努力,即便他只能多覺悟一點點,對 Dodgers 也是佛心來的。

    By the way,07 年 FA market 看起來對 Dodgers 最危險的兩個地雷可能是 Torii HunterMike Lowell。這兩仙如果來到 LA,與 Pierre 的組合於單季拿下 1000-out 恐怕不值得意外....

    Just in case you wonder: 07 年 MLB 單隊單季的 total outs committed 的 median 是 4122,萬一 LA 有兩位球員 commit 這個 median 的近 25%,那就不單是 disaster,而是 catastrophe!


    ※※※※※※※※

    • Derek Jeter 是理想的 top batting order hitter。

    • A-Rod、Jason Giambi & Bobby Abreu,是聯盟一流的打者。

    • Mariao Rivera 是值得信任的 closer。

    類似以上的 points,針對 Yankees 可以列出一大堆,但答案都太過明顯。我們不需要借用 Albert Einstein 的腦袋才能做出正確答案;plus,對於一支年年得分能力在聯盟 top 的球隊,也不需要玩太多的 one-run strategy 去求勝,恐怕過度的 interfere 也打不掉 Yankees 的 playoff caliber。

    那麼,Dodger fans 為什麼需要 worship Joe Torre?幹嘛把他的到來當成神主牌一樣去崇拜?除了 Brad Penny -- 這位在 03 年 WS 裡修理過 Yankees 的胖投手,Torre 連 Dodgers 的 40-man roster 有誰都還不曉得。

    Sometimes, a cigar is just a cigar, and no more...

    3-year 13M 這個 deal 對 big market team 的 Dodgers 來說並不過份,Torre 或許可以當成是 Grady Little 的一個 "upgrade",雖然他不會是 Dodgers 所需要的最後一樣東西,但也不是 Dodgers 所需要的第一樣東西。


    ※※※※※※※※

    這是 Gonzo 在 9 月底發表的 comment:

    "I'm not coming back. You can write that down. It's no secret."

    這是 Joe Torre 接任 Dodger manager 之後,Gonzo 所發表的 comment:

    "This is no knock against Grady, but the credibility that Joe [Torre] and his coaches bring is definitely intriguing."

    Tell me that old-a*s did not intend to knock against Grady...

    Wednesday, October 31, 2007

    Hell's Fiery Pit

    很久沒有 follow 新聞稿 -- 不論是本國電或外電報導,這回就 follow 多一點。

    隨著 WS 的結束,A-Rod 透過 Boras 執行 escape clause 原本應該是眾所矚目的焦點,但 Joe Torre -- 這位在 NY 待了超過一個 decade 的老教頭 -- 的動向以相當意外的方式 (至少讓個人很意外...) 搶攻了部份新聞版面。個人的消息也許得知得比較晚,一直到公司同事談及 "Torre 接任 Dodger manager" 的真實性之前,我都不曾把 LA 和 Torre 連在一起。

    整件事的開端或許是 Fox Sport 的 Ken Rosenthal 所寫的這篇文章:

  • Torre would be perfect fit for Dodgers

  • 其實不乏台灣的平面媒體將這篇文章拿出來大書特書,或許是因為 Wang 的關係才讓 Torre 的未來在台灣也能成為話題,let alone 在 rumor 末端的 Dodgers 也養了不少台灣出身的好手,不過個人讀到這篇文章時只有一個反應:Rosenthal 具有 把一件簡單的事分成 5 段廢話來表達的本事

    簡單的 review 一下:

    • The Dodgers would gain an identity
      就算 Dodgers 沒有 identity,這支球隊的 pay attendance 仍然是 NL 第 1、MLB 第 2 (僅次於 Yankees),打在 Dodgers 身上的鎂光燈依舊是 nationwide,那麼 identity 的或有或無,究竟有什麼差別呢?

      Plus,sooner or later,Russell Martin、Chad Billingsley ... 等一干人就要 (或 "應該要") 成為 Dodgers 的 identity,Rosenthal 以為 Jeter 怎麼成為 NY 客最愛的?

    • The free-agent market is terrible
      面對 07 年 Free-agent market 的問題,要傷腦筋的又豈止是 Dodgers 而已?也別忘了 LA 目前 40-man roster 裡已經有 9 名球員吃掉 76M 的 payroll,現階段不僅看不出來還有多少資金運用的空間,談到 A-Rod 或 Andruw Jones,Ned Colletti 肯不肯和 Boras 坐上談判桌都還是另一回事 -- 這笨蛋在 06 年 offseason 連 Eric Gagne 和 Greg Maddux (兩人都是 Boras 的 客戶) 的 salary arbitration 都懶得 offer -- 只因為他和 Boras "went sour"。

    • Little soon might be gone, anyway
      He has gone! Good riddance anyway.

    • Owner Frank McCourt needs a win
      Can you name the MLB team owners who aren't shy of wins?

    • Torre is hungry
      Figuratively, I don't think there's a single manager who doesn't feel hungry for wins; literally, I would starve to death should the "3-year 19M" Joe Torre feel hungry.

    必須很坦白的說:這篇文章一點也不 impressive!Rosenthal 的底咱是知道的:他是 Fox Sport 的 "謠指部指揮官",這種 "官" 好做的地方在於他可以給我們很多東西,但 credibility 只有兩個字:"source says" (Hell! That source could be my little puppy.)。必須認清的一點則是:並非用英文寫成的報導就比較高貴。

    回到 LA 的內部問題:撇開 Dodgers 早早撿了 Little 08 年的 club option,LA 官方與 local media 事實上只要有機會就為 Colletti 和 Little 的關係做加持,說他們兩個人像兄弟一樣心心相映,只差沒引用 Breakback Mountain 作注。而兩年來的經驗告訴我們 Colletti 是個不會說謊的人,回想起來 Colletti 沒有在 "Torre to LA" 的事炒得沸沸揚時出面制止謠言,咱也沒有起疑實在是太不應該的反應。現在事情變得更乾淨:Little 自己向 Dodgers 遞上了辭呈。

  • Little, Dodgers have parting of ways

  • Little 究竟是不是被逼退我們無法得知,但從 Mark Hendrickson、Juan Pierre、Brett Tomko 等人的案例來看,不見棺材不掉淚的 Ned Colletti 從不承認自己犯的錯卻是可以肯定的!這一回倒是他的 "超級馬吉" Little 讓了個台階給 Colletti 下;另外從官方的這篇文章多少可以瞭解到所謂的 "成者王、敗者寇" 的道理 -- 包括 Little 對 Kent 與小夥子們起衝突事件的冷處理 (laid back) 也被拿出來說嘴。

    談到 Dodger dugout 的不合睦,事發當時,個人認為教練團的處理是很好的,以下是 3rd base coach Rich Donnelly 的意見節錄:

    Donnelly says he believes in "team math" over "team chemistry" - in other words, "the math of a three-run home run."

    Little 的 comment 則是:

    "Results were responsible for the revelation of clubhouse tensions."

    "I think every team has them, We had them last year. We made it to postseason. We had them this year. We didn't make it to postseason. You don't hear about a lot of things when you're able to win and you win through them. When you lose, as a result, then they start getting blown away."

    如果說 Little 在 LA 做了什麼事賺到個人的掌聲,這就是一件!顯然教練團知道 Kent 的事件是 "effect",不是 "cause"。然而為了對付搞不清楚狀況、想乘著 Kent 的大水打漂起亂子的 local media,Little 則以靜制動 -- 認定他們一個巴掌拍不響!坦白說,Little 處理此事的方式相當值得肯定,但卻在卸下 manager 的職位後成了一項罪過,LA local media 真的一點 "正義" 都沒有...

    當然,這不代表個人不同意 Little 走人,他犯下的錯誤夠讓他丟 10 個飯碗了!只是如果 Dodgers 的 manager 從 Litle 換成了 Torre,咱會得到什麼好處?憑個人不甚深刻的記憶與認知,能想到的大概只有以下三點:

    • Torre 的 lineup 比較有道理可循
      Little 的隨性有時候可以是優點也可以是缺點,但如果說在主力球員輪休時把 Ramon Martinez、Wilson Valdez 和 Mike Lieberthal 同時排在場上,加上 Juan Pierre 與投手,Dodgers 等於是 3 個人打 8 個人,也難怪 07 年的 Lowe 會有兩場完投敗 -- 他經常碰到這種連 triple-A 等級都沒有的 offensive backup。

    • Torre 對球員的輪休較有強制性
      感謝上帝讓 07 年蹲了近 150 場的 Russell Martin 沒有支離破碎,也詛咒 07 年出賽了 162 場,拿下 519-out (NL 3rd,也是他老兄近 5 年來第一次用掉的 outs 沒有排在前兩名以內...) 的 Juan Pierre ,如果是 Torre 在掌握大局,這種事應該都不會發生。

    • Torre 對 utility man 的運用 (可能) 比 Little 靈活
      由於 Wilson Betemit 是以三壘手的身份來到 LA,原本是 SS 出身的他在 Little 的麾下幾乎不曾站過 3B 以外的地方,但 Betemit 不但不應該被定位,07 年在 Dodgers 的時期他甚至位列在 Ramon Martinez 之後。相對的,Torre 所有內野的位置都讓 Betemit 站過,不管他的上場機會是否與 Miguel Cairo 的 DFAed 有關,Torre 至少把 Betemit 的使用說明書讀得比 Little 清楚。

    但 Torre 其實並不是 modern baseball 的好教頭,我們可以整理出一些他可能會犯下的錯誤 -- 如果他成為 LA 的 manager:

    • Torre 信任 veteran 勝過 rookie
      我始終相信如果不是當初 Jaret Wright 傷得太離譜,Wang 也許會出現在 07 年的 CPBL 總冠軍戰裡,也就沒有什麼台灣之光。總的說來,Torre 對年輕人的起用和 Little 差不多 -- 不是被逼到絕路,playing time 仍然屬於 veteran 的。Believe me, that's the last thing the "present" Dodgers need。

    • Torre 鍾情有速度的球員
      比照 Tony Womack 的案例,如果 Torre 不改從前的作風,Juan Pierre 依舊會受到重用。

    • Torre 愛 "手套型" 的球員
      Enrique Wilson、Miguel Cairo、Doug Minky、甚至連霸時期的 Scott Brosius 都是很好的例子,而且這些傢伙的 bat 都上不了檯面。

      Thanks god Cesar Izturis was no longer a Dodger...

    • Torre (可能) 較重視 situational matchup
      在 NL 的 late inning 玩太多 "以左制左" 的 LOOGY 遊戲、又沒有以好的 double switch 來 cover pitcher's spot,extra-inning game 就會打得很難看 (Think TLR, and you'll see..)。話說回來,LOOGY 不是 Little 船上的貨,這是好事;現階段也無法知道 Torre 還愛不愛這一套,Plus,Torre 上一回 manage NL 的球隊已經是 12 年前的事了!

    其實,Torre 在上述 "可能發生的錯誤" 裡與 Little 的重疊度很高!另外,我始終弄不清楚在什麼情況下 Proctor 會以 RP 的身份單季投出 100+ innings?OK,雖然我們不清楚 Dodgers 會否留下 Scott Proctor,但如果 Torre 真的降落在 LA,那麼 Big-X -- 07 年也投了 82+ innings 的 RP -- 不曉得會發生什麼事。

    更壞的是:如果用 SWAT team 來形容 Torre 待了 12 個球季的 Yankees,那麼 08 07 年的 Dodgers 大概就像是只配備左輪的 90 年代初期 FBI。因此談論 manager 的帶兵其實並沒有什麼大道理:說穿了,贏球的是球員interfere 的是 manager

    在一介 Dodger fan 的眼裡,我無法想像 Torre 在 Yankees 的地位,但他如果 arrogant 到將 Yankees 時代的功績往自己身上攬、視 George Steinbrenner 的口袋與 Brian Cashman 腦袋於無物、甚至把 5M + incentives 的合約當做 "insult",誠摯的奉勸 Torre 還是別往 LA 這個火坑裡跳!After all,Dodgers 戰績的好與壞是其次,老人家的 "英名" 卻不是這麼好補救的!

    Plus,Torre 最大的功績或許在於整合所有重金請來的一級戰將,很可惜,LA 沒有重金請來的一級戰將,只有 "重金請來" 的 "不入流卒仔"。是故,Torre 的長才可能無所發揮。

    總之,對於 McCourt 與 Colletti "極可能" 去 pursue Torre 一事,個人只單純的覺得他們瘋了!很重要的一個原因是 Torre 不會是幫助重建 Dodgers 的重要人物,同時多花 5M ~ 6M 去買一個給媒體檢討用的砲灰實在看不出有什麼高明之處。By the way,如果有人認為 Joe Torre 的到來可以解決 Kent 在 dugout 造成的緊張情勢,Gary Sheffield 或許是個不錯的反例 -- 要比誰是 MLB 第一 a*s-hole,Kent 不會輸的。

    ※※※※※※※※

  • Fighting the Impossible Battle

  • Jim Baker 在這裡頭有一段 Mattingly as Manager 的部份,提到 Yankees 跳過 NY 客 beloved 的 "Donnie Baseball" 而選擇 Joe Giaradi 的原因在於經驗問題,畢竟 Donnie 在任何 level 都沒有掌兵符的歷鍊。

    如果我沒記錯,Padres 07 年由 Kevin Tower 的 front office 欽點的 manager -- Bud Black 不但只是投手教練出身,也不曾在任何 level 擁有擔任 manager 的經驗。但經過 07 年的處女航,似乎 Padre fans 對於這位由 statheads 所選出來的 manager 的表現還挺滿意?

    What happen to these sabermetricians?

    ※※※※※※※※

  • Dodgers decline options on two players.

  • 我無法相信 Dodgers 居然 decline Mike Lieberthal 08 年的 club option,這明明是極少數 Ned Colletti 在 07 年的簽對的一張好合約....

    And Ramon Martinez?C'mon...他在 Dodgers 待完一整個 07 年就已經是造孽了!

    Tuesday, October 23, 2007

    Two Tiny Tips

    在 BP 上看到兩篇文章,裡頭分別都有一小段給了我一點 (奇怪的) 啟示。

  • Joe Torre in a Box (subscriber only)

  • Steven Goldman 從各種角度來檢視 Joe Torre -- 這位長年帶領 Yankees 的老教頭。或許有很多在台灣的 Yankee Fans (or Wang Fans, so to speak) 會對 Torre 有些不捨,不過 manager 充其量不過是一種 necessary evil,而且個人不相信 manager 能幹出什麼大事!簡單一句:如果 Torre 跑去帶 Devil Rays 或 Royals,也不會自動讓這兩支球隊擁有 playoff caliber,實質問題則在於各隊想花多少錢去買個給媒體檢討用的砲灰而已。

    以一介 Dodger Fan 而言,對 Goldman 所寫的一切一切其實都只能 "嗯嗯..." 的點頭稱是而已,不過下面的這段倒讓人有些聯想:

    Torre also hated to use his closer in a tie game on the road, thinking he had to save him to protect a lead he might never get. This led directly to the disastrous decision to use Jeff Weaver instead of Mariano Rivera in Game Four of the 2003 World Series (a move Torre never regretted). Despite this, Torre’s Yankees record in extra-inning road games (40-30) was actually better than his extra-inning record at home (33-35).

    延長賽 (extra-inning game) 的問題不久前我才向 水瓶兄 請教過,當然 MLB 的 managers 多半會在延長賽時把 RP (後援投手) 從最好的開始指派,不過我始終想不出這是什麼因,經指點後才發現理由比個人想像得要簡單太多。

    即便如此,Torre 在客場延長賽較為成功的案例不代表他在這個環節上對 RP "非主流" 式的調度是正確的,不過我們可以回頭看看數字怎麼說:首先參考 Tango 的 late-inning 1-run WE (Win Expectancy) Matrix,以 Markov Chain 所模擬出來的結果在 tied game 的 Top / Bottom 9th,主隊的勝率是 .500 / .634。

    要知道在任何一個 extra-inning 裡對 WE Matrix 來說都是 9th inning 的重現,換句話說即便是到了 10th、11st...的 Top / Bottom,主隊的勝率都是 .500 / .634。那麼在延長賽裡:

  • 主隊如果能將 tied 的狀態由 Top 維持到 Bottom,就能掙得 .134 的 WE。

  • 客隊如果能將 tied 的狀態由 Bottom 維持到下一個 Top,同樣掙得 .134 的 WE。

  • 現在我們考慮獲勝的問題:主隊的獲勝條件是他們需要在延長賽的某一個 bottom 拿下 1 分,這就是說主隊的 RP 大約可以為球隊先掙得 .134 的 WE,剩下的 .366 (1 - .634) 必須由打擊補上,這很單純。

    客隊呢?假使客隊在延長賽的某一個 Top 拿下了 1 分,根據 Tango 的 WE Matrix,這會給他們 .806 的勝率,這即是說在領先 1 分的情況下,客隊必須由 最後一位 RP 來補上 .194 的 WE

    換句話說,客隊若在 tied game 裡用上了 closer -- 也就是球隊最強的 RP,最終可能替球隊掙到的 .134 WE 小於 .194 -- 將球賽 "關門" 的 WE,也因此客隊的調度其實比主隊有選擇性,manager 的確可以考慮將他的 closer 用在更要緊的地方。

    不過如果這個 "更要緊的地方" 根本來不了 -- 也就是在某個 tied 的 bottom 就已經被做掉了怎麼辦?Tango 的 RE Matrix 在這個環節上也給了些 idea:以 RPG (Runs Per Game) 4.7 為例,Base empty、0 outs 時的 R0 是 .717,這代表的意思是:在 4.7 的得分環境下,壘包淨空無人出局 時,一位 league average 的投手主投一局無失分的機會是 .717

    以此類推:一位 RA 3.5 的 RP 與 RA 2.5 的 closer,他們主投一局無失分的機會分別是 .769 與 .823,差距 不到 6%

    假設 RA 2.5 代表球隊裡的 closerRA 3.5 則代表牛棚裡的 3 號牛或 4 號牛,那麼客隊的 manager 究竟是希望在 .134 的 WE 多加 6% 的保險?亦或是小賭一下,尋求將 6% 的保險加在 .194 的 WE 上呢?這似乎有商榷的空間。

    這裡個人只是舉例提供另一種在延長賽調度投手的觀點,還沒有足夠的証據給出一個正確的答案,畢竟要挑毛病的話,首先就是這裡僅僅考慮了 1-run differential 的情況,麻煩的首要是定義完備的機率空間。但無論如何,這似乎是個值得看下去的題目。


    ※※※※※※※※

  • Heroes and Goats (subscriber only)

  • 這篇算是 Joe Sheehan 為 ALCS 所做的注,沒什麼特別的點子,就像我們不需要知道為什麼 Tribes 落敗的理由,反正 "打包票" 找不到一個充分的理由...

    Sheehan 在其中一段提到了 Travis Hafner:

    Travis Hafner: I was asked repeatedly in chat last night, “Remember when Travis Hafner could hit?” He was awful against the Red Sox, .148/.207/.296, capping a truly disappointing season, and his strikeout against Jonathan Papelbon in the eighth was a key moment in the game, the point where the Indians might have clawed back in, especially had they been able to make Papelbon work hard.

    確實,與 06 年 MVP caliber 的成績相比,Hafner 07 年 .836 的 OPS 確實不像話,雖然比起 ALCS 的 .503 好很多。

    而個人則突發性的想到一個問題:由於 ALCS 打了 7 場,那如果把 Hafner 07 年的 152 場出賽做 every 7 consecutive game 的 summary,他會有少個比 ALCS 糟糕的 7-game session?依 Hafner 在 07 年的 stats,我得到了 145 個 7-game session,而其中一共有 14 sessions 的 OPS 小於 Hafner 在 ALCS 裡的表現。大致的分佈範圍則如下所示:

    OPS RangeTimes
    0.2 ~ 0.32
    0.3 ~ 0.43
    0.4 ~ 0.59
    0.5 ~ 0.614
    0.6 ~ 0.722
    0.7 ~ 0.823
    0.8 ~ 0.911
    > 1.0034

    其中最大值是 1.679、最小值是 0.205,median 則是 .787。

    這倒不足以說明 Tribes 碰上 "07 年 ALCS 的 Hafner 的情況大約是 10% 的機會" 這件事,畢竟一季的資料量並不具備太多的預測能力。合理的推測 -- 仿 Marcel 的方式,個人或許應該取不同的 weights 對 Hafner 的 05 ~ 07 三季裡做 every 7-game session 的統計,只是 weight 該如何取?又該如何 apply 到 data?這是需要考慮的方向。

    Saturday, October 20, 2007

    Buy the Translations

    在 ALCS 經過 3 場比賽之後,個人開始關心 Dice-K 的處境。

    Dice-K 在整個季後賽的表現、或者說進入 8 ~ 9 月的 late season 都像是在迷走,也讓這位日本投手拿到不少的非難。在 Red Sox 硬是把 series 推到第 7 場的情況下,如果 Francona 依舊按表操課 -- 排出 Dice-K 主投第 7 戰,且不論結果為何,媒體的反應都讓人期待。話說回來,Dice-K 有義務承擔這樣的責任,他畢竟讓 Red Sox 出了個 51M posting fee 的天價,鎂光燈與顯微鏡自然必須打在他身上。

    個人相信 Theo 心裡對 bid Dice-K 一事是有底的,即使 Dice-K 的 agent 是 Scott Boras,但 posting system 的規則就是得標的球隊擁有 "獨占交涉權",這多少制止了 Boras 的漫天叫價 -- 即便他抱怨最終簽下的合約 (6-year 52M) 與他心中的差距 "比太平洋還寬";相同的道理,我可以想像為什麼 Brian Cashman 對 Boras 明言 "若 A-Rod 選擇在 07 年 offseason 時 opt out,Yankees 就不會考慮把他帶回來" -- 聰明的 GM 在面對 Boras 時不能留太多的 "洞" 讓他去鑽。

    回到 Dice-K 的話題:Red Sox 實質上等於花了 103M 去綁 Dice-K 6 年,大約是 17.2M 的 annual,雖然 posting fee 的部份並不用計算在 luxury tax 之內 (而據瞭解,51M 美金、相當於 60 億日圓的 posting fee 實際 Seibu Lions 拿到手裡的是 36 億),但整個 MLB 裡 annual 超 17.2M 的先發投手只有兩個人:Roger Clemens 與 Barry Zito。

    Zito 不是個好例子,因為 present Zito 的是個王牌大騙子,簽 Zito 的人卻是王牌大呆子,不過讓 Theo 出一個僅次於 Clemens 的價碼給一個初來乍到的先發投手,單憑 "guts" 是不夠的!

    BP 曾在 Dice-K 這個環節上做過一些 stats translation:

  • Matsuzaka Madness

  • 雖然寫的人是 Christina Kahrl,但做 translation 的人還是 Clay Davenport,這名字想必玩數字的朋友並不陌生。當 Dice-K 的新聞炒得沸沸揚的時刻,Clay 這篇文章 -- 提到他 translates Dice-K 03 ~ 06 的表現到 MLB 之後,同一時期只有 Roger Clemens 在他之上 -- 讓人加深了對 Dice-K 的期待。

    但 07 年的 Dice-K 只交出了 204.2 inning 與 4.40 RA,以 4.8x 的 league average RA 相比,Dice-K 不過是 1-win above average 而已,莫說是與 03 ~ 06 年的 Clemens 相提並論,做為一個稱職的 No.2 都很勉強。

    Theo 做了一段很白話的說明:

    "I think this time next year we can look back and say this is a Josh Beckett 2006 year for him. Josh came to the American League for the first time and learned some things along the way, went home during the winter, made some adjustments, and put it all together."

    除非是台灣的政客才會去翻別人以前的舊帳,所以 Theo 這段話是錯是對在末來想是也不會有人去追究。但在我們正視 Dice-K 的 stats translation 結果前,我認為一件很重要的事可能被忽略:Dice-K 在 NPB 的強悍讓他像是在另一個世界裡投球

    我的意思是:NPB 時代的 Dice-K 可能是 100 percentile 的球員,NPB 大多數的球員完全跟不上他的腳步,這有點像是 Dice-K 是個成棒選手,卻被放在青棒隊裡去教訓那些小鬼們。如果真的要正確的去 translate Dice-K -- 基於他是 "right-tail" 的球員 --在 NPB 的成績,"水準差" 可能必須要考慮,而在 Davenport 細說他的方法之前,我們完全不用把 translation 的結果看得太認真,那只是一個不知道容錯 level 的 estimator 而已!Moreover,這也不是個 "I give you, and you'll like it" 的狀況。

    那麼關於日前 竹板凳 translate CCF (陳金鋒) 07 年在 CPBL 的 EQA 去 MLB 而得到 0.29 的高分一事又該怎麼看?Ottocat 發表了他對此事的 看法,其中還有 Ayukawayen 的回應又說明了一些事實。

    原則上我不認為 竹板凳 的計算是有誤的,問題是我們如何 back 這個 0.290 的結果而已!

    CCF 在 07 年相對於 CPBL 的 EQA 是 .370,這是什麼樣的一個水準?以 MLB 來比喻,這是 Barry Bonds 在 00 年時 .306 / .440 / .688 的 "三圍" 所算出的結果,我們可以很安全的說 CCF 是 CPBL 的 Barry Bonds,在目前的環境裡,幾乎無人可出其右。

    但 CCF 畢竟在 PCL 時代高於 league average,回到 CPBL 的他,等於是把一個 3A 球員丟回 High-A 或 Low-A 的環境,對 CCF 而言,他甚至油門不用踩到底就 suppose 可以打出很好的成績。那麼對整個 CPBL 而言,一個 right-tail outlier 的存在,translate 出 .290 的 EQA,要做為他夠格重回 MLB 的証據,這個 ground 是不夠 solid 的。

    另一個看法:H. Matsui 在 NPB 時代也被評為 NPB 的 Barry Bonds,他的水平在 NPB 要換算出 .370、.380 的 EQA 想必不是太難,但是他來到 MLB 後的 3、4 年間大約都只維持在 .290 上下 -- 幾乎打了個 20% OFF。OK,如果一個 NPB right tail outlier 水準的球員,身在一個大約是 triple-A 水準的環境,來到 MLB 要下殺 20% 的 performance,那麼換成是在 CPBL -- high-A / low-A 的 CCF -- 這位 right-tail outlier 回到 MLB 要下殺多少?

    從 竹板凳 的 work 裡,我們能得到的唯一訊息是 CCF 07 年在 CPBL 真的打得很棒,但 translated EQA .290 不代表他能 play solidly in MLB 的証據。但數字本身我相信是沒有錯的,錯是在如何解讀而已。

    Saturday, October 13, 2007

    Difficulty of Predicting Playoff

    在進入本文之前,先做一個道歉聲明:事情發生在個人在上一篇 Essence 裡關於 "WPA 呈現 model reality 的忠實程度" 的那一段。

    以 WPA 來談論 model reality 其實是 "完完全全的廢話"!因為 WPA 就是拿勝場分配給每一位 contribute 的球員,它非得具有 model reality 不可的!這是 WPA 的 "spec",嚴格說來,不是長處。

    這是個人的失察,謹此致歉,接下來進入本文。


    You can be a playoff columnist, too!

    最近在 THT 上有一系列 "Why the XXX lose to the YYY?" 或是 "Why the XXX will beat the YYY?" 的 playoff column,對個人而言,這有點像是每天早上吃早餐一樣的 routine。球季到了 10 月份,這類的文章到處都讀得到,而且內容都不外乎把兩支對陣球隊在該季的 "stats" 或是 "advanced stats" 拿出來比較一番。對此,我們可以問以下幾個問題:

  • Can't you dig out those (advanced) stats and line them up by yourself?

  • Is that all we can do? Or Can we do it better?

  • 如果第一個問題的答案是 "Yes" (我相信它也應該是 "Yes"),你我都可以做 playoff 時期的 columnists。

    在思考第二個問題前,我們先想一想每年季初有那麼多的 prediction system 把結果公布在網路上讓 fantasy baseball fans 參考,他們是怎麼出發的呢?以 Tango 的 Marcel 來例,它必需擁有球員前 3 年的資料、取不同的 weighted 做為預測的基準,一般來說,考慮 3 年的資訊 "大約" 足以將球員真正的能力顯現出來 (or regress toward the mean, so to speak),也才能保証預測的準確程度。

    總而言之,資料越多,利用此間的相關性會使預測結果更可靠,這也是為什麼我們說統計學最重要的三件事就是 sample size、sample size and sample size。

    即便如此,莫說是 Marcel,PECOTA、Zips 等等 -- 利用多年統計資料的預測系統 -- 都不見得會讓所有的人買帳,那麼回過頭來,球員們 1 season 的 stats 在 upcoming playoff series 裡會有多大的準確程度?有多好的預測能力?

    By the way,依這條路線往前跨一步:咱們為什麼要把 "特定投手與特定打者的對戰成績" 當一回事?David Ortiz 在 07 年對 Wang 是 7/13、OPS 近 1.600,這當然也不足以得到 "Big Pappi owns Wang." 的結論,不是嗎?

    說穿了,用 1-season stats 做評述並不是一個 solid ground。


    Probability & statistics

    這裡很簡單的談一下 機率 (probability) 與 統計 (statistics) 的差別,以白話文來表達,這兩樣東西其實是 "倒過來的"!機率 是探求一個分佈 (distribution) 的行為與內涵;統計 則是利用手中的資料去推導出可能分佈的母數 (parameter)。

    對於一場比賽的結果,它必然是 zero-sum game -- 一定有一方要被 "掛掉" -- 和丟一個銅板只會出現正面與反面是一樣的意思。正確的說,一場比賽其實就是一個 伯努力 事件 (Bernoulli trial),模型遵從 伯努力分佈 (Bernoulli Distribution),母數則是 P,或者說就是對戰時某球隊的 WPCT。

    統計學要做的就是估計 (estimate) 這個母數 P。



    The Log-5 method

    Bill James 曾經提出一個叫 Log-5 的方法,它的目的就是在計算兩支球隊的對戰勝率,它的描述是這樣的:

    Pr(A beats B) = X / Y
    X = [ AW% - ( BW% * AW%) ]
    Y = [ AW% + BW% - ( 2 * AW% * BW% ) ]


    Where:
    Pr(A beats B) represents the probability A beats B.
    AW% represents the WPCT of team A.
    BW% represents the WPCT of team B.

    原則上 Pr(A beats B) + Pr(B beats A) = 1,這一點是沒有疑問的!換句話說,這裡的 Pr(A beats B) 其實就是上一段的 伯努力分佈 裡所提到母數 P。

    以 07 年的 NLDS -- D'Backs VS Rockies 為例,D'Backs 的 WPCT 是 .556 (90-72);Rockies 則是 .552 (90-73),套進 Log-5 method 的結果:

    X = [ .556 - ( .556 * .552 ) ]
    Y = [ .556 + .552 - ( 2 * .556 * .552 ) ]

    Pr( D'Backs beat Rockies ) = X / Y = 0.504
    Pr( Rockies beat D'Backs ) = 1 - 0.504 = 0.496

    可以發現這個結果和丟一枚公正銅板的結果差不會太多。有閒的朋友不妨用 Strength of Schedule 的方式修正兩隊的 season WPCT 再來做 Log-5。

    話說回來,個人在這裡介紹 Log-5 並不代表我很瞭解它,這和 Pythagorean Formula 一樣讓人看不出式子的內涵 ("內涵" 的意思是 -- 比方說 Raw Eqa -- 一看就曉得它是由 OPS 修正而來,分子的部分甚至是一種 "wild runs" 的表現),但個人也無法找出更好的方法來估計 P。



    How much does .504 mean to us?

    現在有了一個也許不是太讓人滿意的 Log-5 來估計母數,我們要回頭看看 伯努力分佈 的行為 -- 也就是它的 期望值 (expected value) 與 變異數 (variance),想看正式一點的網友不妨參考 Wiki 的說明

    EX = P
    Variance = P * ( 1 - P )

    我想 期望值 的部份不用多加說明,至於 變異數 的部份就稍微帶一下。

    變異數 的意義是各 "觀察值" 與 "期望值 差距的平方和的平均",用白話文來講,變異數 就像是去 measure 結果的 "uncertainty",如果與 期望值 離得較遠的值越多,變異數 自然越大,也就是說現有的 母數 (P) 與現有 分佈 (Bernoulli) 去預測結果,發生 miss 的可能性也越大。而關於 伯努力分佈 的行為,當 P = 0.5 的時候,它的 變異數 會到達最大值,等於有最大的 uncertainty。

    Does this ring any bell to you?

    是的!如果 Log-5 的估計結果是準確的,D'Backs 與 Rockies 的對戰的 uncertainty 其實就快要接近最大值了,也就是說誰勝出都不值得意外!另一方面,變異數 的行為也間接說明所謂先發投手的 "consistency" 對球隊的勝利其實沒有太多實質的貢獻,overall RA 說明了一切,而在 RA 相同的前提下,表現越一致的投手 -- 在 "期望勝場數" 的觀點下對球隊不會比較好。

    當然,如果我們想探究一個 series 而非單一場比賽,一連串 伯努力事件 會構成一個 二項式分佈 (Binomial Distribution),有興趣的朋友請自行玩玩看,這裡不多談。

    到這裡應當已經 somehow 說明 playoff 的結果為什麼通常會很出人意表、或者說要給出一個可信的預測有多麼困難。我們總是說 "May the best team win",但是對 MLB 的 10 月份來說,這句話其實是很奢侈的!World Series Title 給的是 10 月份最熱的球隊,不是最好的球隊。



    Back to the question...

    Nate Silver 在 06 年與 BBTN (Baseball Between the Numbers) 裡都提到 secrete sauce 這個東西,個人也曾經 小小的談過,到了 07 年,原本在 BP Statistics 頁面佔有一席之地的 secret sauce 卻只剩下一篇 unfiltered 的描述。當然 secret sauce 有它的道理,但也讓我提醒一下:在 Nate 所設計的 model 裡,EqK9、FRAA 與 WXRL 與 playoff score 的 correlation 大約只在 0.2 上下,小得可憐!這就像是一根小草 -- 抓在手中毫不起眼,卻又不能輕易放掉。

    不過這裡也不至於帶出要 "拿球員 3 年來的資料來做基底以預測他們在短期比賽的表現" 的結論,我想說的是:對於 playoff,猜對或猜錯其實都不值得說嘴,因為不管有多少的 background 在背後支持我們的預測,它都和瞎猜差不多。

    Can we do anything better? Well, maybe not now.



    ※※※※※※※※

    Dodger Fans 最敬愛的 Ken Gurnick 趁著 playoff 時期在官網興風作浪了:

  • Pierre might shift in the outfield

  • 所以官方認為 Pierre 的問題是 "defensive issue",他的 arm strength 是 below average (try "below my younger sister"...),所以要把它往 corner 移動,這代表什麼呢?

    • Ned Colletti 在簽 Pierre 的時候不曉得他是 sissy arm,他以為 ML 級的 OF 的肩力和他 "打X槍" 的力道差不多就行了。

    • 顯然 Dodgers 還是沒搞清楚他們的問題在哪裡,07 年的 Dodgers 明明就是 offensive ineffectiveness 拖垮的啊!

    • Pierre 如果真的移到 LF,很可能代表 Ethier 08 年又要失業,不過我很難相信 Dodgers 還會繼續花錢去搶 Andruw Jones。

    我奇怪的是像 A-Rod 這麼好的球員,在 NY 稍有閃失,媒體就把他弄得剩下半條命;Pierre 在 LA 比一條熱狗的價值都不如,卻仍然活得好好的?換做在 NY,他還有命在嗎?或者說,LA 的 local media 的良心都到哪裡去了呢?

    So, Ken told us that Pierre might shift in the outfield? Try shift to the trash can, asshole...

    Thursday, October 04, 2007

    Essence

    早在 07 年季初,個人曾在某個 forum 留下了 NL West 的排名預測,順位是這樣的:

    1) Padres 2) D'Backs 3) Rockies 4) Dodgers 5) Giants

    當然有不少人覺得個人的預測太離譜,Dodgers 似乎不太可能排到第 4 名,我也承認自己是用最壞的打算來考慮 (也沒想到竟然真的那麼壞...Kudo to Little)。至於 Padres 與 D'Backs 的部分,個人的回應大約是這樣的:

    把 Padres 排在 D'Backs 前面是因為 Padres 的 front office 太優秀,要不然 D'Backs 會是個人 07 年於 NL West 的首選。

    現在看來,個人並沒有錯得很過頭,D'Backs 確實跑得很前面;如果 Dodgers 在 late season 對上 Rockies 不是一個 7-game swept -- 只要 Dodgers 拿個 2-win -- Padre Fans 享受 playoff 就是在球場裡而不是電視機前;當然,沒有比命中 Dodgers 的排名更讓人愉快的了,或許我該回頭翻翻當初在 這本書 上所留下的 comment 的 "正確度" 大概有多少。

    不過 D'Backs 獲勝的 "模式" 倒不像是個人季初的評估:當時我以為 Big Unit 會與 Webb 組成 NL West 最強的左右護法;prospects -- 像 C. Jackson、C. Quentin、S. Drew..etc 會把這支球隊拉著一飛沖天,顯然事情不是我想的那樣。

    基於在 8 月中的 work 的 inspiration,我們來看看 NL 進入 playoff 球隊的 "本質" 何在,在這裡利用的是 WPA 與 BRAA。首先是 D'Backs VS Cubs 的部份:

    ARI V.S. CHN
    TypeWPABRAADelta
    B-1.21 / -2.16-46.83 / -9.173.473 / -1.243
    S2.73 / 3.4511.75 / 33.111.555 / 0.139
    R7.48 / 2.7119.62 / 38.855.518 / -1.175

    其中 B/S/R 代表 Batting / Starting Pitcher / Relief Pitcher、respectively。至於 "Delta" 則是利用 WPA - (BRAA/10) 的結果;數字資料於 slash ("/") 左側的是 D'Backs、右側則是 Cubs。比方說 Cubs 的攻擊火力 (B 列) 在 WPA 的部份是得到 -2.16、BRAA 則是 -9.17。

    首先可以注意到 WPA 呈現 model reality 的忠實程度:我們把 D'Backs 在 B/S/R 的 WPA 加總,得到的結果是 9.0,也就是說 D'Backs 07 年的總成績是 9-win above average,換算成實際勝場數就是 81 + 9 = 90 (Wins),因此我們說 0.5 WPA 其實就是 0.5 Wins Above Average 或是 actual 的 1-Win。

    其次,把 Delta 這個數字拿出來做參考的原因在於這個部份會 "somehow" 與 "clutch" 有關,畢竟在 count statistics 下 10-run equals 1-win 的法則是適用於現今的 MLB 的,但相信在上述表格裡裡不難發現 D'Backs 的 BRAA 是 -46.83 (or 4.7-Win) 只耗了他們 -1.21 的 WPA;On the contrary,Cubs 的 BRAA 僅僅 -9.17,卻轉換成了 -2.16 的 WPA?顯而易見在 regular season 裡,D'Backs 在 high-leverage situation 下的打擊表現是遠比 Cubs 要好的。

    不過之所以用 "Delta" 而不是 "clutchiness" 的原因是由於 BRAA 有 situational 但沒有 context 的因素,比方說球隊得到 > +6-run 的領先,到了第 9 局時即便連下 10 城也不會對 WE (Win Expectancy) 產生 > 0.01 的 fluctuation。換句話說,WE 給了在 oh-so low leverage situation 下表現較好的 batting performance 一些 penalty,situational 的 BRAA 並不會依 context 而變動,所以這裡的 Delta 不是一個良好的 clutchiness 定義,而是一個參考用的 quantity。

    繼續檢視下去就會發現 D'Backs 在 B/S/R 都相當的 "clutch",但 clutch situation 的發生時機並不能控制、更何況發生了也未必拿得到 "bonus WE",因此 D'Backs 其實除了一個 CYA 以外,對 Cubs 而言其實沒有太大的優勢。概括而論,D'Backs 的本質和 Cubs 算相近 -- 傾向守優於攻,低比分 close game 發生的機會看來不小。另一方面,在打擊部分的 "clutch" 也許可以說帶了些運氣的成分,但投手的調度方面就比較與 manager 的決定有關聯性了,至少從 BRAA 與 WPA 的差距來看,Bob Melvin -- 不論有意或無心 -- 做出了不少的 "正確決策"。

    至於 Rockies 與 Phillies 的部份:

    COL V.S. PHI
    TypeWPABRAADelta
    B9.49 / 10.8187.3 / 126.950.76 / -1.885
    S-1.19 / -3.6714.7 / -36.54-2.66 / -0.016
    R0.19 / 0.8633.74 / -15.6-3.184 / 2.42

    典型的 Muscle VS Muscle,個人實在不看好這個組合的勝出者,話說回來,Phillies 的投手資源似乎還是比 Rockies 豐厚一點就是了。

    原則上兩個對戰組合裡都是本質相似的球隊碰在一起,而沒有什麼 "矛" 與 "盾" 之爭,不過這仍然有它的精采之處,plus 07 年 4 個 playoff spot 都沒有 "連任" 的球隊,是故雖然 10 月看不到 Dodgers,但比起 06 年,這一回的 playoff 會讓我比較有興趣。

    個人看好 D'Backs 代表 NL 出席 World Series。

    ※※※※※※※※

    假設你是客隊 manager,在 extra-inning game、比分平手,某局進攻裡,你的 lead-off hitter 上壘了,這時候你會怎麼做?

    30 個 ML 的 managers 裡大概有 29 個會叫下一個打者擺短棒 -- 除非輪到 A-Rod 或是 Albert Pujols,而剩下的那 1 個叫 Bud Black。而 Black 其實幾乎成功,在 07 年 NL 唯一的 163rd game 裡,Top 13th,lead-off 的 Brian Giles walked,下一位打者 Scott Hairston 轟出超前的兩分砲。

    我想,Black 當天如果不是 "忘記下達 SH 的戰術",他也許真的是個當 manager 的料,並不像世論所言 "投手出身的人不適任 manager"。另外,能夠看上 Black 的 Padres front office 也不是個省油的燈,不過這一點我們早就知道了。