被公認為現代統計學鼻祖的英國學者費雪(Ronald Aylmer Fisher, 1890-1962),曾提到下述故事。時間是一九二○年代後期,某日有位女士對一群正在喝下午茶的科學家宣稱,奶茶的調製順序對風味有很大的影響,把茶加進牛奶裡,和把牛奶加進茶裡,兩者喝起來口味完全不同。在座的科學家們當然對這種說法感到可笑,他們看不出兩種混合方式的化學成分有什麼差異。但費雪卻認真地設計了一個實驗步驟,來對這種說法做一檢定,包括要準備多少杯茶,以及依照什麼順序給這位女士喝等。
民國九十年十二月二十日,Yahoo!奇摩網站上有底下一則新聞報導:
(中央社記者郭傳信安卡拉十九日專電)土耳其國立安卡拉大學醫學院婦科系教授庫克在專欄中表示,早在西元前二二○○至二○○○年,藥學史極為發達的古埃及人,已經能夠在不使用化學藥劑的情況下,檢驗出女性是否懷孕。
根據已發現的古埃及紙草文獻記載,希望知道自己是否懷孕的婦女,必須把自己清晨起床後的第一次尿液,裝在一個盛有大麥種子的袋子裡,在此同時,另須把一位確定未懷孕的女性,清晨起床後的第一次尿液,裝在另一個同樣盛有大麥的袋子裡以便比對。庫克表示,由於女性懷孕後,體內會較未懷孕女性產生更多的荷爾蒙,因此泡在懷孕女性尿液中的大麥種子較容易發酵並提前發芽,如此即可用來判定是否懷孕,但如果兩袋的大麥種子同時發芽,則表示尚未懷孕。
庫克最後在文中強調,現代科學已證實,這項古老的驗孕方法「相當準確」。
關鍵在於機率
在費雪的故事裡,如果只拿一杯奶茶讓那位女士喝,且正確指出是先放茶或先放牛奶,這樣一來我們是否就會相信她真有能力分辨?可能不會,因為有 1/2 的機會她會說對,這一機率蠻大的。如果給她兩杯呢?她有 1/4 的機會說對,機率也不算太小,可能還是不相信她有能力分辨。如果連續 10 杯她都說對,此時機率僅是 1/1,024,算是很小的了,即使仍不太相信她有分辨的能力,也許暫時不會排除此一可能性,但是如果 20 次中只錯了一次呢?
畢竟人難免會犯錯,偶爾一次叫錯朋友的名字,你不會承認是認錯他。那麼20次中錯兩次呢?我們對犯錯是有一些忍受度的,至於程度究竟多大,這就因人而異,或因情況而異。附帶一提,如果該女士事先知道 10 杯中有 5 杯是先放牛奶,另 5 杯是先放茶,則 10 杯全說對的機率是 1/10C5 = 1/252,大約是 1/1,024 的四倍。(此處用到 10C5 的組合符號,它是代表自 10 個物件中任取 5 個出來成一組的方法,共有幾種的意思。)
再看檢驗女性是否懷孕的方法。俗語說「一樹之果有酸甜之別,一母之子有賢愚之分。」即使同一批大麥,發芽的時間也有快慢之別,就算倒入沒有懷孕的婦女尿液,大麥可能也會提前發芽。仿照前述女士喝茶的情況,將待驗婦女的尿液與 10 位未懷孕的女性比較,如果是倒入該婦女尿液的大麥,以 6:4 提前發芽,那算不算真的因較多的荷爾蒙,而使得麥子提前發芽?
要知 A、B 兩支球隊,即使勢均力敵(即每場兩隊獲勝的機率均是 1/2),連比十場,A 隊領先(即至少贏 6 場)的機率約為 0.377:
(10C6 + 10C7 + 10C8 + 10C9 + 10C10)/210 = 386/1,024 .= 0.377,
可說很容易發生。B 隊領先的機率一樣大約是 0.377。至於平手,即各勝 5 場的機率大約是 1-2 × 0.377 = 0.246,反而較小。而且怎樣算「提前」?1 秒鐘?1 分鐘?絕大多數的人不會把這麼小的差異當做提前。報導中庫克強調現代科學已證實此法相當準確,至於古埃及人是如何操作此法,以得到可靠的推論,就不得而知了。
數學與隨機事件的差異
在數學裡,一個命題,如直角三角形兩股長的平方和等於斜邊長的平方,三角形三邊的高相交於同一點等,一旦被證明是對的,就毫無疑問地成立。有時,即使尚未能獲得結論,數學家知道那只是時機尚未成熟,結論的獲得只是早晚的事,就如同開門的鑰匙仍在找尋中,一旦尋獲鑰匙,門一定可以打開。
著名的費馬(Pierre de Fermat, 1601-1665)最後定理:當 n≧3 是一整數,且 x,y,z 皆不是 0,則 xn + yn = zn 無整數的 x,y,z 解。此一定理從提出到一九九四年被證明,前後歷經三百餘年。此後就犯不著再在這一問題上思索,看看是否會運氣好,找到一組整數解,那是不可能的。假設銅板 M 出現正面的機率是 0.6,銅板 N 出現正面的機率是 0.5,是否各丟 10 次,這二個銅板分別會出現 6 個及 5 個正面呢?你知道不一定。在數學裡 0.6>0.5,是否銅板 M 出現的正面數一定較銅板 N 多呢?經驗告訴我們也不一定。
對於隨機現象往往無法有如數學中斬釘截鐵地推論,在數學上我們可以寫「假設 n≧3 是一整數,且 x,y,z 皆不是 0(假設 A),試證 xn + yn = zn 無整數解(結論 B)。」此命題的假設條件是 A,想得到的結論是 B。
但在隨機世界裡,一件事往往很難判定真偽。到底該女士能否分辨奶茶裡是先放牛奶還是先放茶,即使她 20 次(亂猜猜中的機率等於 1╱220,約是百萬分之一)都說對,恐怕還是有人不相信她有這種能力。因此我們不會採用如數學上的命題方式「假設有某一泰勒女士,試證該女士『能』分辨奶茶是先放牛奶還是先放茶,或是要試證該女士『不能』分辨……」來要求被詢問者做一判定。
數學家因先相信在條件 A 下,xn + yn = zn 無整數解是對的,再去證明它確是如此。但對奶茶那一問題,由於女士宣稱她有分辨能力,因此研究人員先假設該女士無分辨能力,只是隨機地猜。然後譬如說拿二十杯奶茶讓她分辨,統計她能夠正確判斷的次數,首先設定一能忍受的錯誤機率 α,如 0.05、0.01、或 0.001 等,接著觀察在每杯猜對機率皆為二分之一的假設下,正確猜對這麼多次的機率有多大。如果機率小於 α(也就是這麼多次正確是較不尋常的),則得到結論「拒絕」原假設(即判定該女士並非無分辨能力),否則便說「接受」原假設。
統計假設
對一隨機現象,研究人員都是先提出一猜想,再把猜想表示成統計假設(簡稱假設)的形式。而導致接受或拒絕一統計假設的步驟,就是統計推論的主要工作。
統計假設與一般數學中的假設是不同的,在數學裡我們常有下述這類敘述:假設 x>y。由於並未涉及任何隨機的量,所以這不是統計假設。但如果以 μ 來表示北銀樂透彩頭獎號碼中,1 號出現的機率,則 μ > 1╱7 就是一項統計假設了。
由於一項統計假設是否是真,通常都無法確定。所以一般的作法是,取一組隨機樣本,並利用這組樣本當做是否支持某一假設的證據。如果證據與假設所陳述的不吻合,更精確地說二者吻合的機率很低,便拒絕該假設,否則便接受該假設。
我們常說「數據會說話」,但不論方法多好,對一統計假設所做的推論,也有可能是錯的。所以在設計決策步驟時,要考慮推論錯誤的機率。在無法避免犯錯的情況下,只能以較好的方法儘量減小犯錯的機率,否則所做的統計推論便不易被採信
在數學裡,對於一命題,有真或偽兩種結論。但在統計學裡,我們不說一假設成立或不成立,而是說接受一假設,或拒絕一假設。要注意的是,當我們拒絕一假設,並不表示該假設是不可能,而是表示該假設不像會發生、似不可信的。接受一假設也並不表示認為該假設必定成立。
口語裡的不可能,有時並非真的表示不可能,而是指發生的可能性極低。在〈不可能的任務(Mission Impossible)〉那部電影裡,主角湯姆克魯斯還是把任務完成了。
某公司宣稱其產品的不良率 p=0.1,某消費者協會想做檢定。此處的假設就是 p=0.1,隨機地取 100 個樣本來檢驗,且發現其中有 10 個不良品,則很可能會接受前述假設,因數據是吻合的。如果將假設改為 p=0.11,則這假設大約也會被接受,因證據並不強到足以推翻 p=0.11。所以,務必要了解的是,接受一假設,僅表示樣本未提供充分的證據以拒絕該假設。
另一方面,若拒絕一假設,則表示樣本提供的證據夠強,足以推翻該假設(但仍有可能犯錯)。換一方式來說,若拒絕一假設,表示當該假設是真時,會產生所獲得的樣本的機率很小。例如,對上述情況,若得到 20 個不良品,則應足以拒絕 p=0.1 的假設。什麼原因?若 p=0.1,利用排列組合,會得到至少 20 個不良品的機率約是 0.0008。也就是若 p 真等於 0.1,會得到至少 20 個不良品的機率是很小的,僅約萬分之八,所以此時拒絕 p=0.1 的假設,會犯錯的機率很低。
如前所述,拒絕一假設,表示我們認為該假設極可能不真,但接受一假設,倒並不排除其他可能性。因此對一假設,有些人認為以「不能拒絕」的說法,取代「接受」的說法較適宜,這是一種較保守的講法,有點像「不能說不喜歡」不等同於喜歡。不過一般在實際應用時,往往並不那麼謹慎。反正只要理解這是一個隨機現象,在這組數據下可以被接受,在另一組數據下便可能被拒絕了,誤判是難以避免的。因此在文字上斤斤計較,似無必要。
假設檢定
有了一項統計假設,下一步就是去檢定是否要接受或拒絕這假設,這整個過程稱為假設檢定。假設檢定的理論及架構是由波蘭人奈曼(J. Neyman, 1894-1981)及英國人皮爾生(E.S. Pearson),在一九三三年提出著名的奈曼—皮爾生引理所奠定的。
在奈曼—皮爾生的架構裡,有一虛無假設(null hypothesis)及一對立假設(alternative hypothesis)。虛無假設通常表示現況,而對立假設表示我們傾向相信的,也就是想證明它是真者。例如,對北銀樂透彩頭獎號碼中 1 號出現的機率是否大於 1╱7 的問題,若研究人員認為答案是肯定的,則會把虛無假設取為 μ = 1╱7,而對立假設當然就是取為 μ > 1╱7。
虛無假設是被保護的,除非證據夠強,否則不輕易推翻,這是合理的。如果宣布樂透彩 1 號出現的機率大於 1╱7,可能引起不小的震撼,之後即使做了更正,宣布實驗有誤,所造成的損失將難以彌補。對於現況不輕易推翻,會使人們在做決策(如宣布某產品的規格,制定某項辦法等)時更謹慎。因一旦宣布後,便很難被更改,如此會使大家下決定前,能考慮得更周全。古人批評「朝令夕改」,今人說「朝令有錯,夕改何妨?」相較之下古人還真有智慧。
在假設檢定的過程中,所能忍受的錯誤機率有多大,則要視情況而定。以誤判的機率而言,事實上這中間有兩種錯誤的機率,其一是虛無假設為真卻拒絕(這稱為第一型錯誤),其二是虛無假設不真卻接受(這稱為第二型錯誤)。理想的狀況當然是兩型錯誤機率皆為 0,但通常不會有這種情形。當樣本數固定時,一般而言,兩型錯誤的機率,有一減小另一必增大。
由於虛無假設是真卻誤判它不真的後果往往較嚴重,所以通常的作法是先控制第一型錯誤的機率不要超過某一事先設定的值,然後使第二型錯誤的機率愈小愈好。
無罪推定原則
統計假設的架構,與刑事訴訟法中的無罪推定原則(被告未經審判證明有罪確定前,推定其為無罪)是類似的。我國最高法院,於民國二十五年立下的有罪推定原則判例,在經過 67 年後,終於通過修正。此後被告原則上是無罪的,不必證明自己無罪。法官只要認為被告罪證不足,即可判無罪,不必窮調查之途,才可以判被告無罪。宋朝歐陽修在追述其父母生前言行事蹟的〈瀧岡阡表〉一文中,提到他的父親是死囚「求其生而不得,則死者與我皆無恨也。」也是這種無罪推定的精神。
以往檢察官若認為法官未窮盡調查的途徑,便判被告無罪,會不服而提起上訴,那是因為長期以來法院採取有罪推定原則。法官判決時,採用無罪推定原則是較為人性且合理的。
若一嫌犯因證據不足而被釋放,如果他是無辜的,那當然最好。如果他其實是有罪,但被釋放後洗心革面,再也不犯罪,那也很好。如果他因心存僥倖或其他原因,又犯了罪,則第二次以後,就不見得每次都有那麼好的運氣了,夜路走多總是沒有好下場。若採有罪推定原則,由於這假設不易被推翻,被起訴者容易被判有罪,一旦執行刑罰(如死刑),日後如果真相大白,錯誤如何挽回?
讀者大約也會明白「虛無」二字的由來。如果研究結果宣布北銀樂透彩每期頭獎號碼的產生符合隨機性,這種結論可能沒有幾個人有興趣。社會大眾有興趣的結論是拒絕虛無假設!要嘛宣布頭獎號碼是有公式可以算出,要嘛宣布明牌存在,的確有某幾個號碼較容易出現。
正如一般人有興趣的是,電影明星的婚姻有問題(對立假設),影迷們對其經紀人一再宣稱該明星夫妻恩愛如常(虛無假設),是不會感到興趣的。很多政治人物在被檢察官起訴時常聲稱遭到司法迫害,等法院判決無罪時,又改口稱許司法還他清白。如果明白法院可能是因證據不夠充分,不得已之下而做出接受「虛無」假設(無罪)的判決,就不用太認真地認為司法還給他什麼了。