Saturday, April 29, 2006

Reality and Estimation

Quantum Mechanics (量子力學) 對學生時代主修數學的我而言是一個完全陌生的領域,也從未想過目前以 software engineer 為業的自己會去碰觸這個部份。而最近自 The Hardball Times 轉台到 Baseball Prospectus 的 Dan Fox 於四月初起了一個名為 Schrödinger's Bat 的 new column,卻反而讓我花了點時間去讀些與 Quantum Mechanics 相關的文獻。

Fox 在 column title 裡所用到的名字來自於 Erwin Schrödinger 這位物理學家,也許他不像 "E equals MC squared" 的 Albert Einstein 這麼有名氣,但是在 Quantum Mechanics 詮譯的爭論上,Schrödinger 和 Einstein 基本上是處於同一陣線,與 Niels BohrWerner Heisenberg -- 所謂的 "Copenhagen Interpretation" 派 -- 是打對台的。以下個人用最簡單的 terms 來說些 Quantum Mechanics 的故事,也算是為 Fox 首篇於 BP 上的 發表 做一些與 sabermetrics 無關的 further explanation。

上述這些物理學巨擘們都同意以波函數 (wave function) 來描述粒子 (particle) 的行為是合理的,以波函數為基的 Schrödinger Equation 就是類比 (analogus) 古典力學的 Newton 2nd law 而來,它描述一個 quantum system 在 energy 方面的變化是 time-dependent,但必須得知的是粒子在某個特定的 state 上的 energy,這些 energy 可以決定未來的 state 的 energy。換句話說,Schrödinger Equation 在描述 particle 的行為時,認為這一切都是「決定性」 (deterministic) 的結果。

但是 Copenhagen 學派的人就不這麼想,他們認為用來描述粒子的波函數本身是由一群擁有固有值 (eigenvalues) 的固有狀態 (eigenstates) 的線性組合 (linear combination),寫成數學式子就像是:

Ψ = sum(ciψi), i = 1,2,3,....

其中 ψi 代表的是粒子在 ith 固有狀態的波函數,ci 則是可能為虛數 (complex number) 的 coefficient,當進行測量時,state 跳到 ψk,它的固有值 -- say Ak -- 就自然的呈現出來,而測得 Ak 的機會則和 ck 的絕對值之平方成正相關 (positive correlation)。簡單的講,Copenhagen 學派認為粒子的任何一個固有狀態的呈現都不是決定性的結果,反而和 probability 有些牽連。也就是說 Copenhagen 學派的結論就像是有名的 "測不準原理" (Heisenberg's Principle of Uncertainty) 的延伸。

關於 Copenhagen 學派的詮釋,Einstein 和 Schrödinger 都不同意,Einstein 認為現今的 Quantum Mechanics 本身是不完備 (incomplete) 的,造成這種 probability 的錯覺是由於存在一些尚未被發現的變數 (hidden variables) ,他甚至這麼說:

God does not play dice with the universe.
(上天並不是用丟骰子來決定世事的運作的)

另一個被拿來攻擊 Copenhagen 學派的問題在於原本 n 個狀態線性組合的波函數 Ψ = sum(ciψi), i = 1 ~ n,在經過測量之後,得到狀態 k,於是固有狀態 ψk 呈現,Ψ = ckψk = Ak (固有值),冗長的 n 項描述在測量後就只剩下 k 這一項,這就是所謂的「波函數崩壞」 (wave function collapse)。Schrödinger 尤其不同意這一點,他著名的想像實驗 (thought experiment) -- Schrödinger's Cat -- 正是拿來反駁 Copenhagen 學派的一個圖騰:

Schrödinger's Cat

如果我們將一隻貓關在一個密室裡,密室裡每小時會有 1/2 機會釋放出一粒電子 (electron),若電子放出,則密室就會發生毒氣將貓給毒死。依據 Corpenhagen 學派的詮釋,貓的情況可以用一個線性組合 -- Ψ = sum(ciψi)、i = live and die -- 也就是活 (live) 與死 (die) 兩個固有狀態來描述,但以這樣的線性組合來看,如果最後貓死了,只有一半的原因是被毒死的,另一半則是因為我們打開密室後看到貓,所以牠死了 (觀察後,描述貓的波函數線性組合崩壞成為 Ψ = ciψi、i = die 的狀態)。Schrödinger 因此認為 Copenhargen 的詮釋是荒唐的!

屬於 Copenhargen 學派的 Heisenberg 並沒有對 Schrödinger's Cat 做出正面的反擊,他只表示 Schrödinger 的解釋是對於 Copenhargen 派描述波函數的誤解,Heisenberg 說:

The quantum mechanical formalism does not provide physicists with a "pictorial" representation.
(量子力學的公式並非給予物理學家一幅圖畫般的真實寫照)

故事就說到這裡為止,我想 Fox 在他的新 column 裡以 Quantum Mechanics 的例子做為開場,甚至引用 Schrödinger 之名做為他的標題,這一切都只因為詮釋 Quantum Mechanics 的發展和 sabermetricians 與 old school 派的爭論實在有太大的相似之處。

Sabermetric 派最容易受到攻擊的一點就是「沒有考慮人間性 (humanity)」,Baseball (或者說,任何運動) 是一項以人與人的互動為主的運動,怎麼可以用幾個莫名奇妙的數字來說明?我也在最近 AXN 的新影集 NUMBERS 裡聽到類似這樣的一句話:

Use numbers to judge human's performance, it's antecedently ridiculous.
(用數字來衡量人的表現,前提就是荒唐的)

但就如 Heisenberg 所說的一樣,sabermetrics 所用的數學模型也不是一項真實寫照的參考,相對於 Quantum Mechanics 用 measurement,sabermertics 用的就是 estimation。當然,estimation 本身也是很容易受到攻擊的點子,old school 總是愛說數字是違反 reality 的東西,正如 estimation 一般,它只是一種估算而已。

Sabermetricians 似乎從來也沒有提過這些數字代表了真實的寫照,有位政治家 (我忘了他的名字了) 曾經提過世上的三大謊言就是 "Lies, Damned Lies and statistics."。這倒是相當 paranoid 的講法,我想說的就和 Heisenberg 為 Copenhargen 學派的辯護差不多:數字本身是不會騙人的,被騙的往往是不瞭解這些數字、或是錯誤解讀的人而已

而 reality 有時候也會帶來難以解釋的結果,就拿 Win Expactancy Finder 來說,它擁有 1979 ~ 2004 年所有的紀錄 (你也許已經發覺到 Win Expectancy 的模型和波函數的崩壞也有某種程度的相似性) 。當你輸入 9th inning、visitor、0 out、score differential -1 的條件,就會發現當二壘有人時的 Win Expectancy 是 0.321;同狀況三壘有人時的 Win Expectancy 卻是較低的 0.302!?很明顯的,這就是 counter intuitive。但是仔細想來,很可能只因為後者的 (9th、0 out、3B occupied and 1 run behind) 發生的可能性低、導致 sample size 小,使得整個 Win Expectancy 的統計結果變得不可信。無論如何,這是 reality 所告訴我們的結果,卻難以說服大家去相信這樣的結果是正確的。在這種情況下,我們就需要一些較好 estimations 去修正所謂的 "counter intuitive reality",進而得到 "true reality"。

Heisenberg 也說過:

Reality is what you measure it to be, and no more.
(沒有了量測,真實是沒有意義的)

同樣的,在 sabermetrics 的世界裡,沒有 estimation,reality 也是沒有太大意義的。但這些 estimations 是否正確?是否有意義?則是 follower 需要去思考的問題。

Sabermetric 與 old school 的爭論也許永遠沒有停止的一天,但就像 Quantum Mechanics 的歷史故事一樣,不同的學派本來就有不同的道理,幾個簡單的數字的確不能完全說明 Baseball 這個自然界縮影的精密性。也許上天也真的不是用丟骰子來決定世事的運行,但 sabermetricians 卻是用丟骰子來 maintain 一定程度的正確性,讓結果達到一個令人滿意的程度。單就這一點上,sabermetricians 的成果絕對是不容忽視、而且值得驕傲的。

5 comments:

Anonymous said...

寫得相當好,關於棒球統計一是我較陌生的領域,正想多學一點,好在找到你的部落格,可以向你多學學~
我現在寫的,只好偏向大聯盟單場球賽的分析,不過台灣球迷對大聯盟有興趣的球迷似乎不多,大都只關注旅外球員。像你這樣研究的人真是珍貴。

Morikawa said...

老師客氣了。其實這個 Blog 仍就是以 Dodgers 為主幹,不過對我來說,棒球和數字其實是可以劃上等號的。

要說學習則不敢當,如果能有一些討論的機會就很 great 了。

SAI said...

很棒的例子!學到一些新知識

即使是同一陣線,也有派系之分!所以請想問一下板主,BP和THT是否有對某些數據有不同解讀?或是對棒球場上某些現象有不同的看法?

Morikawa said...

To Tommy,

好比說,個人最近研究 THT 的最新的 PRC (Pitching Runs Created),但整個看下來,它的結果「似乎」只是修正了一些 runs environment 和 DIPS 後所得到的另一種投手的 MLV (或是:VORP) 而已。

說 THT 和 BP 是不同派,似乎也不是那麼一回事。我反而覺得兩邊對於求出一個統計數字的出發點是相同的,但所用的 approach 也許有點不同,當然,最後取的名字也會不同。

Anonymous said...

THT和BP最大差別在於一個免費一個要付費,一個完全公開一個總是藏私不告訴我們他的算式的全貌。