Saturday, October 20, 2007

Buy the Translations

在 ALCS 經過 3 場比賽之後,個人開始關心 Dice-K 的處境。

Dice-K 在整個季後賽的表現、或者說進入 8 ~ 9 月的 late season 都像是在迷走,也讓這位日本投手拿到不少的非難。在 Red Sox 硬是把 series 推到第 7 場的情況下,如果 Francona 依舊按表操課 -- 排出 Dice-K 主投第 7 戰,且不論結果為何,媒體的反應都讓人期待。話說回來,Dice-K 有義務承擔這樣的責任,他畢竟讓 Red Sox 出了個 51M posting fee 的天價,鎂光燈與顯微鏡自然必須打在他身上。

個人相信 Theo 心裡對 bid Dice-K 一事是有底的,即使 Dice-K 的 agent 是 Scott Boras,但 posting system 的規則就是得標的球隊擁有 "獨占交涉權",這多少制止了 Boras 的漫天叫價 -- 即便他抱怨最終簽下的合約 (6-year 52M) 與他心中的差距 "比太平洋還寬";相同的道理,我可以想像為什麼 Brian Cashman 對 Boras 明言 "若 A-Rod 選擇在 07 年 offseason 時 opt out,Yankees 就不會考慮把他帶回來" -- 聰明的 GM 在面對 Boras 時不能留太多的 "洞" 讓他去鑽。

回到 Dice-K 的話題:Red Sox 實質上等於花了 103M 去綁 Dice-K 6 年,大約是 17.2M 的 annual,雖然 posting fee 的部份並不用計算在 luxury tax 之內 (而據瞭解,51M 美金、相當於 60 億日圓的 posting fee 實際 Seibu Lions 拿到手裡的是 36 億),但整個 MLB 裡 annual 超 17.2M 的先發投手只有兩個人:Roger Clemens 與 Barry Zito。

Zito 不是個好例子,因為 present Zito 的是個王牌大騙子,簽 Zito 的人卻是王牌大呆子,不過讓 Theo 出一個僅次於 Clemens 的價碼給一個初來乍到的先發投手,單憑 "guts" 是不夠的!

BP 曾在 Dice-K 這個環節上做過一些 stats translation:

  • Matsuzaka Madness

  • 雖然寫的人是 Christina Kahrl,但做 translation 的人還是 Clay Davenport,這名字想必玩數字的朋友並不陌生。當 Dice-K 的新聞炒得沸沸揚的時刻,Clay 這篇文章 -- 提到他 translates Dice-K 03 ~ 06 的表現到 MLB 之後,同一時期只有 Roger Clemens 在他之上 -- 讓人加深了對 Dice-K 的期待。

    但 07 年的 Dice-K 只交出了 204.2 inning 與 4.40 RA,以 4.8x 的 league average RA 相比,Dice-K 不過是 1-win above average 而已,莫說是與 03 ~ 06 年的 Clemens 相提並論,做為一個稱職的 No.2 都很勉強。

    Theo 做了一段很白話的說明:

    "I think this time next year we can look back and say this is a Josh Beckett 2006 year for him. Josh came to the American League for the first time and learned some things along the way, went home during the winter, made some adjustments, and put it all together."

    除非是台灣的政客才會去翻別人以前的舊帳,所以 Theo 這段話是錯是對在末來想是也不會有人去追究。但在我們正視 Dice-K 的 stats translation 結果前,我認為一件很重要的事可能被忽略:Dice-K 在 NPB 的強悍讓他像是在另一個世界裡投球

    我的意思是:NPB 時代的 Dice-K 可能是 100 percentile 的球員,NPB 大多數的球員完全跟不上他的腳步,這有點像是 Dice-K 是個成棒選手,卻被放在青棒隊裡去教訓那些小鬼們。如果真的要正確的去 translate Dice-K -- 基於他是 "right-tail" 的球員 --在 NPB 的成績,"水準差" 可能必須要考慮,而在 Davenport 細說他的方法之前,我們完全不用把 translation 的結果看得太認真,那只是一個不知道容錯 level 的 estimator 而已!Moreover,這也不是個 "I give you, and you'll like it" 的狀況。

    那麼關於日前 竹板凳 translate CCF (陳金鋒) 07 年在 CPBL 的 EQA 去 MLB 而得到 0.29 的高分一事又該怎麼看?Ottocat 發表了他對此事的 看法,其中還有 Ayukawayen 的回應又說明了一些事實。

    原則上我不認為 竹板凳 的計算是有誤的,問題是我們如何 back 這個 0.290 的結果而已!

    CCF 在 07 年相對於 CPBL 的 EQA 是 .370,這是什麼樣的一個水準?以 MLB 來比喻,這是 Barry Bonds 在 00 年時 .306 / .440 / .688 的 "三圍" 所算出的結果,我們可以很安全的說 CCF 是 CPBL 的 Barry Bonds,在目前的環境裡,幾乎無人可出其右。

    但 CCF 畢竟在 PCL 時代高於 league average,回到 CPBL 的他,等於是把一個 3A 球員丟回 High-A 或 Low-A 的環境,對 CCF 而言,他甚至油門不用踩到底就 suppose 可以打出很好的成績。那麼對整個 CPBL 而言,一個 right-tail outlier 的存在,translate 出 .290 的 EQA,要做為他夠格重回 MLB 的証據,這個 ground 是不夠 solid 的。

    另一個看法:H. Matsui 在 NPB 時代也被評為 NPB 的 Barry Bonds,他的水平在 NPB 要換算出 .370、.380 的 EQA 想必不是太難,但是他來到 MLB 後的 3、4 年間大約都只維持在 .290 上下 -- 幾乎打了個 20% OFF。OK,如果一個 NPB right tail outlier 水準的球員,身在一個大約是 triple-A 水準的環境,來到 MLB 要下殺 20% 的 performance,那麼換成是在 CPBL -- high-A / low-A 的 CCF -- 這位 right-tail outlier 回到 MLB 要下殺多少?

    從 竹板凳 的 work 裡,我們能得到的唯一訊息是 CCF 07 年在 CPBL 真的打得很棒,但 translated EQA .290 不代表他能 play solidly in MLB 的証據。但數字本身我相信是沒有錯的,錯是在如何解讀而已。

    18 comments:

    Dorasaga said...

    兩個問題。

    首先要感謝老師釐清log5以及兩種distribution影響log5的回覆。

    我還想說應該計算Cubs在2007的贏面以及D'Backs的贏面再來確認利用這理論的結果。不論如何,先請教一下。

    計算六種組合(狀況),但是要考慮到「其中3個連續正面--出現在一個 best-5 的 series,with log5 算出的 WPCT 很接近 0.5」:我不了解這個意思是說儘管接近0.5是幾乎random,在log5的數學世界中,一定有pattern會出來?

    回到今天的主題。許多球迷不能理解Dice-K控球為何差。我卻看不出來他哪裡差。我想拿fangraph的資料來比對ERA或是K/9(和Dice-K同性質)領先聯盟的SP,包括Beckett、Peavy。

    是不是可以從H/9、飛球成安打率(Infield-FB%)、HR/FB、FB%等數據,看到Dice-K有無失投率高,被打者痛擊?

    這些數據基本上還要和其他投手比較多少百分比(%)差距才算是「高」或「不高」?

    Morikawa said...

    Dorasaga,

    別再叫 '老師' 啦!

    以 flip a coin 的結果,基本上像是 010101 這樣的型態就是一種 pattern,所以這就一點都不 random。

    如果真的做到 random,理當找不出 pattern,可能有時候出現 8 個 1 連在一起、有時後 4 個 0 連在一起....and so on。

    像 Excel 有亂數產生器的功能,好比說我們可以以 P = 0.5 生成 100-trial 的 Binomial Dist. 的亂數,我相信或多或少可以發現一堆 1 或 0 連在一起。In fact,這 100-trial 所遵守的是最後的總和接近 50 而不是 0101 的出現。

    然後我們可以再用 P = 0.9 -- lower the uncertainty -- 同樣取 100-trial 的 Binomial Dist. 與 P = 0.5 的相比,這應該可以給你一些 idea。

    這可能很抽象,相信問題在於多數人對 "randomness" 的認知。

    --------

    我也讀了一下 Dice-K 的的數字,拖死他 07 年 FIP 的部份確實是 BB/9,其餘算水準之作 -- 包括 LOB%。

    BABIP "也許" 有一點點的 bad luck,但不是那麼明顯,而 Red Sox 給他的 DEF (Defense Efficiency) 其實也還算合理。

    Basically,Dice-K 不算 ground-baller,要比 HR/FB 也要找同性質的投手,至於不同性質的投手間看 HR/9 就差不多了!但身在 AL East 交出 1.10 的 HR/9 我覺得是 OK 的。

    最重要的,一年的資料不代表什麼,現在要做什麼結論都還太早了一點。他應當是個好投手,至於有沒有好到像 04 ~ 05 年那時的 Rocket 那麼誇張?這就很難說了。

    Kumi said...

    下面這句話:

    聰明的 GM 在面對 Boras 時不能留太多的 "洞" 讓他去鑽。

    "洞"是指什麼?GM為什麼會留"洞"給Boras鑽?

    duck said...

    所謂的洞,應該是旨在"Game Theory"裡面提的,先將自己未來的決定告訴對方,讓對方知道自己必然的行為,而不會嘗試去做一些試探性的行動.

    比較有名的例子就是"破釜沉舟"這個成語...

    Dorasaga said...

    樓上的:

    不對吧?比照前後文「這多少制止了 Boras 的漫天叫價 -- 即便他抱怨最終簽下的合約與他心中的差距 "比太平洋還寬"」,這「洞」應該說【有機可乘】,不是破釜沉舟啦。

    破釜沉舟是說沒後路只能向前一博。但是Boras利用合約制度為他的client獲得大約,也為自己提高名望。他永遠有退路,或說鑽後路。

    Boras知道該季市場中有多少選手是數得起來的高價貨(選手)。他就拿這貨找得到所有的potential buyer然後增加他和最熱切談判的球團很多交涉彈性。

    Dice-K一例,儘管posting system給Boston獨家,不讓Boras能推多少,但是他還是為Dice-K撈了很多benefit,以及未來仲裁或交易的空間。

    A-Rod,一位好守三壘游擊又打得出破聯盟紀錄的寶石,這貨opt-out然後進入free market,Yanks就要忍受Boras很多「拉勒」,還不如先斷絕Boras意圖,讓他知道Yanks只接受set的flat price。所謂的「洞」也就消失了。

    Dorasaga said...

    morikawa,

    Good call,老...。那儘管不是random,「亂數產生」的運算也在log5方程式背後的理論嘍?換句話說,log5告訴我postseason A球隊 vs.B 在不同combination下勝利的機率,很有可能意思是要在同樣的combination下,比方說first round Best of 5,A五場勝,A-B要打過一千次才有可能出現這個pattern,也就是A在第五場勝利?

    By the way, 羅德的小林雅不知道為什麼也和中日的岩瀨一樣受MLB注目。這年頭到底是怎麼回事,Majors 都懶得培養自己的專業中繼了嗎?!(我不相信什麼「岡島效應」~說Saitoh/Otsuka+fellows效應我還buy it~)

    duck said...

    to:Dorasaga

    小弟的意思是,NYY等於是告訴經紀人"Take It Or Leave It"

    換句話說,只要NYY的Front Office說的話有足夠的誠信讓經濟人相信她們會這麼做了話...

    那經濟人可以做的事情當然就比較少了...

    假設NYY的Front Office有誠信.

    A-Rod的經紀人就不可能在明年的約上面幫A-Rod從NYY挖到更多的錢.

    以NYY的 Front Office來說,這種宣布確實是一種破釜沉舟.

    以A-Rod的經濟人來說,這也是一種壞事,因為間接的減少了A-Rod的競標價格...

    因為現在大家都知道"NYY"不會出價....

    當買家減少的時候,競標就很難標的太高...

    畢竟...出的起A-Rod價錢的買家...本來就沒幾各了...

    所以..出的起的球團...可能只要比現在A-Rod的約在多一塊錢美金...就可以贏得條約(這裡是誇示法...不是真的只要多出一塊錢...如果這樣...可能會有球迷跑去捐各十二塊錢美金..當成當球隊負擔一年的額外薪水...)

    所以...就算A-Rod逃脫...價格跟年份也會再次離經紀人上次提出的價格離個到月球距離那麼遠..

    反正種修辭..聽聽就好...

    Dorasaga said...

    duck:

    原來您是以球團出發點修辭,誤會誤會。

    我發現我們倆講的是同一種論點。Boras過去創下MLB第一個100M contract,第一個200 M contractitanus,但是接下來要拿到第一個300M看來有問題。

    對了,雖然本季不可能有變化,但是有人相信Girardi會接下post-Little 2008嗎?

    http://sports.espn.go.com/mlb/news/story?id=3079140

    Morikawa said...

    三位,

    我聽到了一些對 A-Rod 的 circumstance 的不同看法,這是好事,只是我想的方向比各位都短淺。個人所提的 "洞" 只是一介局外人的觀察角度。針對 Cashman 在季中表示 "若 A-Rod 選擇在 07 年 offseason 時 opt out,Yankees 就不會考慮把他帶回來" 一事可以這麼看:

    在 A-Rod 執行 opt out 之前,他是 Yankees 的 property,如果 A-Rod 真有誠意待在 NY 而且也希望再拿一張長合約,那就得在 "期限內" 由 Boras 和 Cashman 上談判桌,這時候 Boras 的對象只有 Cashman 一個人,他能拿出的籌碼將會受限 -- Boras 只能盡力說服 Cashman 說 "A-Rod 值 XXX 元",他沒有 "其它球隊對 A-Rod 的評價" (←不管是真是假) 來做拉抬,更沒得可以要脅 Cashman 說 "如果你少出 YYY 元,我的 client 就會到 ZZZ 隊去" 之類的情事。

    當然,這種情事一旦讓 A-Rod touch 到 FA market,情況就 "一定會" 立刻改觀。

    因此 Cashman 對 Boras 的喊話 -- 在我個人的解讀裡 -- 代表他明白萬一 A-Rod 的談判窗口多開了幾扇,Yankees 勢必要受到 Boras 的勒索,Cashman 不想也不會去浪費時間做冤大頭。

    比對 Dice-K,其實他的 6-year 52M 合約比起 51M 的 posting fee 還要讓個人 eye-popping!但如果我們曉得在 posting system 下 MLB 球隊買到的是一個 "30-day exclusive window",多少可以理解為什麼 Boras 面對 Theo 時會吃虧。

    By the way,A-Rod 的 opt out 期限是 World Series 結束後向後算 10 天,我個人覺得事情的發展會比較像是 Yankees 用 大約 5-year 140 ~ 150M 的 contract extension 來交換 A-Rod 的 opt out。

    ########

    Dorasaga,

    我們換個角度來看這件事,不要談 probability 或 randomness,由 sampling 來看好了:

    Log5 只是單純估計兩隊對戰的 WPCT 而已。如果 WPCT = 0.5,我們列出以下的機率空間:

    A-B / Probability
    3-0 / 0.125
    3-1 / 0.1875
    3-2 / 0.1875
    2-3 / 0.1875
    1-3 / 0.1875
    0-3 / 0.125

    如此機率空間即為完整 -- 所有事件發生機率之總和為 "1"。

    這代表的是:
    1) 勢均力敵的兩隊 A 與 B,
    2) A 在一個 best-5 裡橫掃 B 機會是 0.125。

    Log5 說的人"1)",它是拿來判斷兩隊對戰的 edge,至於 2) 是我們拿 Binomial Dist. 去做的推論。

    但 2) 的意思實質上會是 "勢均力敵的 A 與 B 在 1000 次 best-5 series 裡應當有 125 次是 A 將 B 橫掃" (這是 期望值 的概念)。

    那麼假設 D'Backs 與 Cubs 對上,"且" 他們又勢均力敵,10 月初的 NLDS 第一輪不過是一次 P = 0.5、best-5 series 的 "single draw",而我們有 12.5% 的機會抽到 D'Backs 橫掃 Cubs。

    For good measure,這個 12.5% 的機會與 "42 選 6 的 lottery 中 3 碼的機會" 相比,大約是 32000 倍。

    --------

    基於 RP 表現的 volatility,我的確不認為 MLB 各隊會想要去培養所謂的 "專業中繼",因為:

    1) 我們很少看到長年做 "setup-man" 的 RP,是因為如果這類投手的 setup 功力真的那麼強,那麼遲早會變成隊上的 closer。

    2) 所謂的 "setup man" 就是一種 "能力不如先發投手;爆發力不如 closer" 的中間生物,這種投手用 "碰" 的就可以了,反正汰換率很高。

    ------

    Girardi 的事,基本上 Grady Little 在 08 年的 option 已經被撿了起來,不太可能立刻被換掉,但如果 Girardi 來到 Little 的麾下,我覺得這代表對 Little 下最後通牒:因為隨時有人可以 "取而代之"。

    Dorasaga said...

    morikawa,

    Thanks for the example and the reanswering. 這樣看來各個「A-B / Probability」的期望結果是把總和(1)「distribute」以後才有的。不過比一般的彩卷預測度還要命中率高數萬倍,看來log5的數學也滿了不起的啊~

    中繼的話,基本上我可以接受「比起專業,抓一位不像話的先發」轉任。可是,我們在季後市場還是常常看到岡島或是Joe Kennedy有個upgrade by service time的合約。如果已經定位中繼的投手只要「碰」運氣就有,那球團何必還用複數年合約綁住呢?

    Morikawa said...

    Dorasaga,

    基本上我想表達的是 "勢均力敵的兩隊,A 橫掃 B 在一個 Best-5 裡頭的機會是 42 選 6 的 lottery 然後中 3 碼機會的 32000 倍以上",這與預測能力強弱無關,而是或然率的問題。

    IOW,如果我們相信自己有中 lottery 小獎的運氣,相較之下根本無須訝異在 best-5 裡出現橫掃的結果,right?

    Be more specific,上一篇 comment 的機率空間與結果是依 Binomial Distribution 建立出來的,log-5 提供給我們的是 Binomial Distribution 的 "母數" (parameter)。

    --------

    你說的沒錯,因為我從來也搞不清楚為什麼有 GM 會想對 RP 簽長約,強如 Mariano Rivera 者,Yankees 先前亦不曾給過他超過 2 年的合約;撇開傷病的不可預知性,Dodgers 對 "Game Over" 也只簽了兩年,而以上提及的這兩位都擁有或曾經擁有 "The Best Closer of Baseball" 的稱號。

    要說 RP 市場開始瘋狂,我想 Jays 的 J.P 之於 B.J. Ryan 或 Mets 的 Minaya 之於 B. Wagner 是 groundbreaker 吧?

    Dorasaga said...

    我不清楚Jays的決策文化,不過我查了一下,Ryan前年的five-year, $47MM deal 實在大到驚人,這是許多球團二、三號先發的合約。

    Girardi最後還是去洋基,很驚人。一位監督資歷不到一年而且脾氣火爆的前捕手來接任過去許多監督失敗或不敢接的「洋基考驗」,並且重整這隻大恐龍,Girardi在沒有Posada, Jeter, 甚至Rivera的支援下會打出什麼隊形,我拭目以待。

    最近Cubs對廣島鯉魚的黑田博樹的熱視線有持續加溫的新聞(已經溫了一年了!)。God knows who'll replace Jason Marquis!

    Morikawa said...

    Dorasaga,

    Giaradi 的事其實單看媒體報導我們也得不到什麼訊息,他的 "雀屏中選" 是因為拿到 06 年的 NL Manager?還是因為比 Donnie Baseball 有經驗?亦或是他的 first name 和 Torre 一樣是 "Joe"?這些理由在未來可能都會有人做文章,但不可能有一個決定性的答案。

    重要的是 Yankees 還有 Cashman,我相信 Giaradi 的工作並沒有太大的困難。

    關於 Marquis,我倒是認為他為 Cubs 投出了很不錯的一季,當然這不代表他的實力,更何況他和 Cubs 之間要綁到 09 年為止。

    至於 Kuroda...我怎麼記得 Carps 給他一張長合約?似乎沒有消息說他會被 posted。

    Dorasaga said...

    morikawa,

    Marquis我覺得他是位above average的先發。他狀況好的時候也滿dominating。The problem is: He 've been falling short the end of every season。

    今年初我聽過一些Cards fans說去年La Russa把Marquis從季後賽roster除名就是因為他季末投的很糟糕。今年他沒被除名,但是他的控球問題在季末也浮現,所以被Piniella冷凍。Marquis's conditioning has some problems, and it's never been solved。Cubs fans要看到競爭世界大賽的隊伍,只是above average是不夠的

    黑田的合約是六年,但是有逃脫條款:他要挑戰MLB的時候,自動解約,使得他成為free agent。如果媒體報導屬實,他會「生涯廣島」是因為要照顧老邁又單身的父親。

    今年後者死了,黑田無牽掛,去MLB是他過去想過的目標。但是如果待在NPB,黑田只會留在廣島。

    Ayukawayen said...

    抱歉因為當兵的關係, 到現在才回這一篇.
    關於陳金鋒EqA那一篇, 我最有意見的地方不是他在CPBL的EqA. 而是算出他2005年在PCL的EqA調整到MLB是.312一事. 只要那幾年注意過陳金鋒EqA的人就一定會發現這個數字錯到一個誇張的程度.
    陳金鋒在AAA的MjEqA從來沒高過聯盟平均(.260)過, 講他打出.312 All-Star級的EqA, 就像講Juan Pierre某年打出過20HR一樣, 差距之大到連查證都不需要就可以確定是錯的.
    至於陳金鋒在CPBL的MjEqA, 我不確定算出來的數據是不是錯誤的, 也不認為有需要去確認. 因為MjEqA在AA以下的層級的意義不大, 對於outlier在定量分析上的意義也不大; 陳金鋒今年在CPBL的EqA同時滿足這兩個條件, 所以不管算出來的結果正不正確, 都是沒什麼意義的.
    只是如果算AAA的MjEqA可以和BP的結果差距如此之大, 我對於他計算CPBL的MjEqA的結果也不會有什麼信心就是了.

    Morikawa said...

    Ayukawayen,

    感謝你的 comment。而你是對的,05 年的 CCF 在 PCL 應當怎麼算都不會跑出 .312 這種數字,我個人沒有注意到這個部份。

    竹板凳 當初和我談的是關於 translator 應該 apply 在 EQA 轉換的哪一個步驟,我其實看了一眼 CCF 07 年在 CPBL 誇張的表現,心裡已經一半把他當成 outlier 了,不過對於 "MjEqA 在 AA 以下的層級的意義" 一事,我想今後我會多多注意。

    duck said...

    結果A-Rod還是溜了...

    看來Game Theory的分析有時候還是不夠充分..

    有點跌破眼鏡的感覺..

    接下來就看會是有行無市...

    還是會低頭回NYY?

    如果真是這樣...眼鏡還是可以戴著..

    新合約真的可以超過如A-Rod所願嗎?

    如果超過舊合約很多...那就得乖乖換眼鏡了..

    得由時間來告訴大家...

    Morikawa said...

    Duck,

    A-Rod 的事確實是太意外了,以 Cashman 之精,他是無論如何不希望 Rangers 綁在 A-Rod 身上的 30M 解套的!這也是為什麼當初我不覺得 A-Rod 會跑掉的原因。

    Cashman 甚至很可能不會要求 A-Rod 在新合約上打折扣,而是砸大錢然後綁短一點的時間。

    我很奇怪誰願意負擔 (或能夠負擔) Boras 對 A-Rod 的漫天喊價...