第八章 彩券號碼算得出來嗎?——從均等與均值分配破除彩券明牌迷思
從二十多年前大家樂盛行的年代到目前台灣彩劵的發行,任何時期都有許多人熱衷於使用各種方法計算或預測彩劵的開獎號碼。真的有明牌嗎?為什麼相信的人言之鑿鑿?其實,要驗證彩劵確實有明牌這個立論的可靠性,只要透過統計資料分析,就能清楚得到結論,應該更具有說服力吧。
判斷彩劵開獎數字是否能夠預測的問題,相等於檢定開獎數字是否符合某種隨機變數的機率分配的法則。根據以往的紀錄,如果這些開獎數字出現的次序沒有產生任何規則,每個數字出現的頻率也沒有顯著的差異,那麼開獎數字怎能被計算出來呢?當一個變數能夠出現某些可數的數值,且每個數字出現的機率都相同時,它就是一個符合離散均等分配的隨機變數。
本章我們收集了2007年台彩5/39的開獎紀錄,忠實的執行第二部分嚴謹的統計資料分析流程,否定了計算彩劵開獎號碼明牌的意義。我們証明了,2007年台彩5/39開獎數字,構成一個範圍為1至39的均等離散隨機變數的隨機樣本。換句話說,每一個彩劵開獎號碼只是一個範圍為1至39的均等離散隨機變數的隨機試驗的一個結果或出象。
檢定離散均等分配隨機樣本的應用很廣,本章將以三個有趣的例子來簡略說明,包括:名人的出生與往生日期是否緊密關聯、平行作業系統工作量負載平均,與隨機數字產生器的品質。
你算、我算、大家算——彩券數字組合怎麼算?
全球各國或地區發行的各式各樣的彩券(lottery),任何時候都吸引著大量彩券迷的下注。尤其在連續數期無人中獎且累積巨額獎金時,不但彩券常客瘋狂加注甚或大量包牌,連平常不太參與的民眾也會進場試試手氣。這種情形充分反應了人們追求財富的一般性。事實上,每一組號碼中獎的機會,在無瑕系統(fair system)的假設下是可以使用機率理論完全定義的。以風行台灣的台灣彩券今彩5/39為例,每一注簽中頭彩的機會只有575,757分之1。
在理論上簽中頭彩機率這麼低的狀態下,某些黑心或迷信的人士,很容易就形成各行其是的預測模式。迷信的人購買或膜拜神明求取明牌,黑心人士則提出似是而非的所謂預測方法,大賺彩迷的錢。在一般民眾一廂情願、不明是非或求財心切的助長之下,還是有人在販售明牌,還是有人繼續膜拜神明求取明牌,當然也有很多人不惜代價的下注明牌。
為什麼很多人仍然相信彩券明牌確有其事?或許是因為相信自己是某神明特別垂愛的對象,或許是財迷心竅而不問事理。追求明牌的人們,儘管根據的模式不同,但是大都是根基於一個共同的假設,即:彩券中獎的數字組合確實能夠預測的迷思。對於這個立論,我們將使用統計資料分析的流程來加以驗證,這也是本章撰寫的目的。
本節標題立論的驗證,其實並不用大費周張而嚴謹的進行分析,僅僅稍為運用普通常識就能夠形成正確的結論。假如某人聲稱他握有明牌,他儘可自己簽中致富,為什麼要出售?假如因為他已經簽中的次數太多以致於太滿足於自己的財富,所以願意無條件與人分享,那為什麼會找上你呢?這兩個問題的答案並不需要任何數理或其他深奧神秘的推導,只要借用顯而易見的常識就能夠迎刃而解。我們也可以換個角度來思考這個立論的正確性,試問,假如樂透中獎數字的組合能夠在開獎之前被正確預估,世界上任何一種彩券還有發行的理由嗎?
既然各種彩券的中獎數字組合,不能夠有效的被預測的理由已經非常清楚,為何我們還是願意繼續探討,如何依據資料分析的流程來驗證這個立論?主要是因為有許多類似的立論,沒有辦法以普通常識判斷其真偽,但卻可以依據本章所介紹的步驟,尋求合乎科學精神的解答。
雖然從一般常識的角度很容易理解,彩券中獎的數字組合能否預測的答案是否定的。但是透過嚴謹的資料分析過程尋求合理的解答,就不是那麼直接了當。底下我們依據第二章介紹的統計資料分析流程,來破除彩劵明牌的迷思。
彩券開獎流程——定義問題
假設我們的目的是為了回答樂透彩券中獎號碼的組合是否能夠預測的問題,我們首先應該定義有關這個問題的背景環境與系統運作方式。一般的彩券開獎作業流程包括:稽查人士檢查每顆彩球與開獎機、作業人員將彩球依序置入開獎機、主持人或貴賓起動開獎機、開獎機內的彩球不斷的飛舞、主持人或貴賓按下出球鈕、中獎彩球一一躍出、主持人依序取出彩球並念出中獎號碼、最後將這組中獎號碼由小到大的排序公佈在看板上。從以上的開獎流程,我們可以了解彩券開獎系統(system)中的任何人事物以及這些個體之間的互動,只要出現瑕疵就有可能影響結果的公正性。
為了有效評估一個立論,除了確定研究目的與範圍外,還必須加上一些假設(assumptions),如此一來建立的系統代表物,也就是解題模式(model),才具備分析的可行性或意義。在此我們假設開獎系統的每項活動,都沒有顯著的人為的可議之處;以及開獎活動不會遭受任何非自然因素等怪力的影響。
接下來,我們進一步的了解這個立論的本質。假如我們能夠從過去的開獎紀錄,證明每一組數字的組合,其出現的機率都是一樣,出現順序也沒有呈現任何規則,那麼中獎數字可以預測的迷思,就能夠被破除。因為既然每一組數字組合出現的機率相同,就表示沒有固定的型態可以追蹤,當然也沒有任何演算法則可以成立。然而這種作法卻是沒有可行性,以今彩5/39為例,可能產生的數字組合就將近陸拾萬種。我們如何在有限資源中進行這麼龐大的運算工作,何況我們還有更簡化的方式可以應用,那就是,只要我們可以證明每顆彩球被搖出的機率都是一樣,而且沒有任何出現序列的規則性,那麼中獎號碼就不具有可預測性的特徵。因此我們面對的問題立論可以轉換為:
樂透彩球出現的次序呈現沒有任何規律的隨機性,而所有彩球的出現次數也沒有顯著的差異性。
開獎號碼——建立模式
因為開獎系統只有包含固定又已知數量的彩球或數字,又每次搖出的數字在試驗之前無法預知結果,所以搖出彩球的活動可以看成是一個隨機試驗(random experiment)。這個隨機試驗的樣本空間(sample space)就是所有彩球或出象(outcome)的集合。
接下來,我們來定義一個變數名稱,叫作開獎號碼,以儲存每一期第一個開獎數字。因為每次開獎搖出的第一顆彩球極有可能不同,因此開獎號碼這個變數所儲存的數值也當然不同,所以它就是一個隨機變數(random variable)。比較理論的說法是,這個隨機變數將開獎系統中所有彩球的集合(樣本空間)中的每個出象(彩球)對映到一個數值的函數或規則。根據檢定的標的立論或陳述,與開獎號碼這個隨機變數的定義,我們就能夠建立解題的假設模式(hypothetic model)。然後,開始資料收集與彙整的作業,進而檢驗這個假設模式的正確性。
針對系統的初步假設模式:開獎號碼序列,構成範圍1至N的離散均等分配變數的一個隨機樣本。也就是假設:彩券開獎號碼各數字出現的累積次數或機率沒有顯著的不同;而依次開獎數字,形成沒有任何規則可以追尋的隨機序列。
由於彩券搖獎機不會任意開放給民眾使用或進行測試,假如彩迷對於開獎作業有合理的質疑,彩券發行者應該公開測試,以證明系統流程公平無瑕。但是目前的開票系統並沒有達到必須公開接受驗證的條件,因此我們的分析研究,只能植基於開獎作業的歷史資料。
如上論述,假設彩球總共有N個,那麼檢驗樂透迷相信明牌的迷思,等於檢驗開獎樣本是否構成界於1至N的離散均等(discrete uniform)分配變數的一個隨機樣本。在第七章中我們曾經說明,假如樣本不是依據機率取樣方式獲得,檢驗隨機樣本的過程就必須包含兩項工作,適合度檢定(test of goodness of fit)與隨機性檢定(test of randomness)。如果我們使用機率取樣的設計獲取樣本,則檢驗隨機樣本的過程,只需要進行適合度檢定(test of goodness of fit)。
收集彩券開獎資料
我們應該使用什麼時段以及多少數量的開獎紀錄,分析的結果才具有說服力?以結論的可信賴度來說,資料的數量當然是愈多愈好,但在統計分析的立場是,資料量的長度是以達到能夠滿足可接受的信賴水準(confidence level)的需求為原則。因為統計分析的本質是有效率與有效果的依據隨機樣本(random sample),針對母體(population)參數(parameter)進行推論(inference)。
對於一項立論的檢定,從機率的角度來看當然無法獲得零誤差的結論。因為樣本的長度再大,只要沒有包括全部的個體性質,獲得的結論都只是一種依據機率理論計算而得的近似值。同此,樣本長度只要能夠滿足推論結果的誤差,在可接受的範圍之內即可。以開獎號碼來說,母體包含整組開獎機在它的使用期間內,搖出數字的所有集合。以這麼龐大的資料集合為研究對象,無論是收集或分析工作,實際上沒有任何可行性。因此一般的統計分析,使用者的共識是,將可容忍的最大型態I誤差(maximum type I error),也就是顯著水準(level of significance)設定為5%。
為了解決問題,我們應該收集多少資料,以比較隨機變數在每個數值或數值區間,期望(expected)與觀察(observed)次數的差異?理論上這個次數可以被看作是一個二項分配(binomial)的隨機變數。依據大數法則或中央極限定理(central limit theorem),當每一個期望出現的次數必須超過5個,這些次數就能夠轉換成為一個常態(normal)變數。因此,我們至少須要(5) (39 )= 195個開獎數字的資料,才能獲得有意義的分析結果。由於台灣彩券發行的歷史不久,資料量比較完整的是今彩5/39。對於今彩的下注與開獎方式,不熟悉的讀者敬請參閱相關網站的公告。雖然今彩5/39每一期各開出5個數字,但是開獎數字的次序的不同,難免增加分析工作的複雜度。在2007年,今彩總共發行261期,雖然資料收集範圍雖僅僅包括每一期第一個開出的數字,但是已經能夠滿足統計分析的條件。底下是從台彩官方網站的檔案,每一期第一個開出數字以月份分類的彙整,如表8-1。
將資料以圖形、表格呈現
資料彙集作業包括圖形、表格或數量等方式進行,原則上是能夠符合研究目的,與展現資料特徵的需求。我們的目的是證明彩券開獎數字是一個符合離散均等分配的隨機變數。首先我們選擇以彩球號碼與該號碼出現次數來彙整這261筆資料,將所有彩球號碼與這組261個數字以左右兩個欄位呈現,如圖8-1。左欄依序列出今彩所有可能出現的數字,也就是1-39的所有整數。右欄則是對應於左欄數字搖出的月份。為了簡潔的表示開獎數字出現的月份,我們使用十六進位的方式,將月份名稱依序編列為1,2,3,4,5,6,7,8,9,A,B,與C。如此右欄的序列長度適當的表示該數字出現次數的多寡。
接著我們將每個數字出現的次數彙集成為另一個圖表。左欄表示出現的次數,右欄則為開獎數字,如圖8-2。
以上兩個圖表,以不同的方式表示了資料的分配情形。圖8-1除了表示每一個號碼出現的月份外,欄位的長度也同時提供每個數字出現的次數,是否呈現顯著差異的視覺效果。圖8-2,雖然也彙整了每個彩球出現的次數,但是我們彙整資料的目的,不但需要計算某些數值特徵值,更要能夠表示資料的散佈情形。兩相比較下,圖8-1比較符合我們的研究目的:亦即,驗證彩券開獎號碼各數字出現的累積次數皆相同的假設。然而圖8-2彙整的資訊,可能減化適合度檢定的計算過程。
對於我們的另一個假設:彩球出現的次序呈現沒有任何型態的隨機性,以上的彙集並沒有任何幫助。假設我們採用輪迴檢定(run test)的方法,檢驗資料序列的隨機性,資料就必須進行另一次的轉換。
經過簡單的計算,這些中獎數字的樣本的中位數(sample median)等於21。根據輪迴檢定的資料預先處理的程序,進行這項檢定的資料轉換函數Y定義如下:
假如Xj <= 21,Yj = 1, 否則 Yj = 0。
上式中的j = 1, 2,.., 261,使得Xj依序代表261期的開獎的第一個號碼。經過這個函數的轉換獲得表8-1長度為261個0或1的Yj序列(sequence)。
驗證開獎數字均等模式
接著,我們要來說明如何驗證表8-1的彩券開獎數字,是否構成由1到39的離散均等變數的一個隨機樣本。也就是驗證彩券開獎數字搖出順序的隨機性,以及每個號碼出現頻率的相等性。底下我們利用本書第七章介紹的輪迴檢定與適合度檢定等方法,分別檢視這兩個假設。
輪迴檢定
建立假設 基本假設:彩券開獎數字構成隨機序列 對立假設:彩券開獎數字不是隨機序列
決定樣本長度( n )與顯著水準(α) 樣本收集範圍包括2007今彩5/39全年各期開獎的第一個數字n = 261,顯著水準使用一般的共識值α = 0.05。
選擇統計量 由於彩券資料長度夠大,我們能夠應用大數法則,當基本假設為真時,系列中的輪迴數目,R,呈現近似常態(approximated normal)分配的法則。由於常態分配的模式易懂易用,因此輪迴數目是一個非常適合進行隨機序列檢定的統計量。R這個隨機變數的值,會隨著資料收集時段或長度不同而變化,因此我們將實際紀錄紀錄計算而得的輪迴數目,標示為r,它只是隨機變數R的一個觀察值。
訂定棄絕區域 一個常態分配的隨機變數經過標準化(normalization),就成為一個標準常態(standard normal)分配的隨機變數(Z)。依據之前訂立的顯著水準,本檢定的棄絕區域包含兩段區間,因為當r很大或很小時,基本假設就不能成立。正規化以後,在顯著水準等於0.05下,這兩段棄絕區域分別為(-∞, -1.96)與(1.96, ∞)。
計算檢定統計量或p-值 從資料彙整得知2007今彩開獎數字序列的輪迴數目r = 124,又”1” 與 “0”的個數n 與m,分別等於137 與124。常態變數R的平均值μ與標準差σ的計算過程如下: μ= (2 m n) / (n + m) +1 = 131.17 σ= √(2 m n (2 m n – n – m) / (n + m)2 ( n + m -1) = 8.04
統計量r=124,正規化後之標準常態變量(variate), z* = (r –μ) /σ = (124 – 131.17) / 8.04 = -0.8912,又
p-值 = P (棄絕基本假設 | 基本假設為真) = 2 * min (P (Z < -0.8912), P(Z > -0.8912) = 2 * min (0.3133, 0.6867) = 0.6266
提出結論 形成結論的基礎在於樣本分配的機率行為,也就是根據檢定統計量(test statistic) p-值或z*。上階段的計算結果p-值等於0.6266,大於顯著水準甚多。因此我們可以明確的宣示,彩券開獎數字符合隨機序列的檢定。當然我們也可以根據z* = -0.8912 > -1.96,作出相同結果的結論。如此,彩券開獎號碼出現的順序,應該沒有任何可以追蹤的型態。這個檢定結果也間接說明了,預測彩球搖出規則根本毫無科學根據。
適合度檢定
建立假設 基本假設:彩券開獎各數字出現次數相等 對立假設:彩券開獎各數字出現次數不相等
決定樣本長度與顯著水準 樣本是由2007今彩5/39全年各期開獎的第一個數字組成。這39個數字在總共261期的出現次數,如圖8-1,依次為 4, 3, 6, 7, 4, 6, 6, 6, 6, 8, 9, 8, 5, 5, 7, 4, 7, 8, 10, 8, 10, 10, 11, 11, 5, 6, 5, 7, 6, 4, 2, 8, 6, 7, 4, 9, 9, 6, 8。假設本檢定的顯著水準與隨機性檢定相同,等於0.05。
選擇統計量 首先定義Oi,i = 1, 2, …, 39依序代表開獎數字1至39的觀測次數,而Ei則為理論上每個數字出現的期望次數。如第七章的說明,統計量Q = Σ(Oi – Ei)2/Ei 是一個卡方分配(chi-square distribution)的隨機變數,自由度等於38。當基本假設成立時,彩券開獎各數字出現次數相等,因此所有的Ei = E = 261/39 = 6.69。
訂定棄絕區域 理論上,當統計量Q很大時,基本假設就不能成立,應該予以棄絕。在顯著水準等於0.05與自由度等於38之下,棄絕區域 = ( 53.6, ∞)。
計算檢定統計量或p-值 直接將次數資料代入公式,Q 的觀察值q= ((4 - 6.69)2 + (3 - 6.69)2+ ….+ (8 - 6.69)2) / 6.69。或者使用圖8-2的彙整資料, 6.69 * q = ((2 – 6.69)2 + (3 – 6.69)2 + 5*(4 – 6.69)2 + 4*(5 – 6.69)2 + 9*(6 – 6.69)2 + 5*(7 – 6.69)2 + 6* (8 – 6.69)2 +3*(9 – 6.69)2 + 3*(10 – 6.69)2 + 2*(11 – 6.69)2 = 21.99 + 13.61 + 5 * 7.23 + 4 * 2.85 + 9 * 0.47 + 5 * 0.04 + 6* 1.71 + 3 * 5.33 + 3 * 10.95 + 2 * 18.68 = 183.95,所以 q = 183.95 / 6.69 = 27.49。由卡方函數表格,自由度 = 38, p-值 = p( χ2 > 27.49) > 0.05
提出結論 我們可以根據p-值或q值,當作形成結論的根據。上階段的計算結果p-值大於0.05,大於顯著水準,當然q = 27.49也沒有落入棄絕區。因此我們沒有足夠的證據,棄絕彩券開獎各數字出現次數相等的基本假設。所以預測彩券開獎號碼的立論,只是一種迷思罷了。因為根據紀錄,開獎數字形成一個均等分配的隨機樣本,根本沒有任何搖獎規則得以事先預測。
更多均等隨機樣本檢定的應用
本章討論的重點,雖然集中於破除彩券迷熱衷於預測或購買明牌的迷思,但是這個分析流程確有許多有趣的應用。我們檢驗彩券立論的措施,就是分析過去開獎紀錄,證明每個彩球被搖出的機率沒有顯著的差別,在進行活動之前出現的順序也沒有任何可以定義的規則或型態。
以統計推論的角度來說,上一節進行的步驟就是檢定一組觀察值是否構成離散均等變數的一個隨機樣本。底下則是一些有趣又常見的例子。
名人生日與往生日多在同一天?
本章介紹的一組樣本是否構成隨機序列與離散均等分配適合度等檢定過程,當然可以用來檢定:名人的往生日期是否平均分配在各個日子或月份。
報章雜誌偶而報導某些過世的名人,往生日期與生日同一天或是非常接近的消息。加上某些媒體八卦式的討論或喧嚷,長久以來不斷的灌輸人們,生日與死亡日期或有關聯的想像空間。假如這個關聯真的確有其事,是否在生日前後的幾天裡,人們應該特別注意健康狀態、出入場所與活動行為等以維護自身安全?其實每個人都知道,生命中的每一天都不可以掉以輕心。
假如有的是時間與精力,針對這個命題必須收集很多生日同一天,同星期或同個星座人士的往生日期,然後檢驗這些日期是否平均分佈於每一時段。以上的敘述雖然沒有直接計算生日與往生日的關聯程度,但是假如相同生日的名人與他們的往生日期並沒有顯著的團聚(clustering)情形,我們就不能夠棄絕:往生日期與生日沒有顯著關聯的基本假設。
為何火車那幾節車廂總是特別擠?——設備或工作量的負載平衡
高速公路收費站的收費亭,是否達到負載平衡?根據多年來的觀察,我們感覺好像越靠近左端的通道,等候通過的隊伍越長。是否大部分的用路人習慣行駛快速道,通過收費站也不願意轉換車道?高速公路工程局應該有完整的相關紀錄,是否應該提出有效的因應措施,或者大家並不關心設備負載平衡的問題?
大賣場的結帳櫃台員的工作量,是否達到負載平衡?在重大節慶之前數天,顧客人潮與購買貨品數量增加許多,通常可以看到工作人員努力疏導,因此負荷不平均的現象比較不嚴重。
火車每節車廂上下車人數是否差異不大?假如每一個車廂在停靠站上下車人數相差不大,列車停留時間就能夠縮短。根據以往搭車經驗,好像並非如此,有些車廂上下車人數明顯的不同於其他車箱。也許為了售票的方便性,或其他管理上的考量,造成負荷不平均的現象,也間接接造成更多的成本負擔。
隨機亂數產生器的品質
亂數的用途廣泛,也是很基礎的模擬資料產生方式。以統計資料收集的活動來說,通常必須使用亂數選擇族群中的部分個體並紀錄相關屬性或性質,以構成一個隨機樣本。在工作流(?待確認「工作流」一詞)的系統設計與規劃階段,個體如何進入系統,接受處理,處理時間的延時,選擇下一個步驟等物件在系統中的流動行為,樣樣都是使用隨機變量(random variate),以獲得比較客觀的資料。因此,隨機亂數產生器的品質,便成為專業人士所關切的問題。
產生符合某種分配行為的亂數,通常分為兩個階段,產生0與1之間的亂數,然後依據數學模式轉換成為符合某特定分配規則的隨機變量。因此,0與1之間的亂數產生器變成我們關切的主題。一個隨機變數產生器,無論產生的實數包含多少有效位數,理論上還是一個離散數值。但是一般電腦系統的內建程式,產生的隨機數值至少也是準確到小數點後面十個位數,所以我們仍然可以假設,它們可以是界於0與1之間的任何數值。
優良0與1之間的亂數產生器的最低標準,從數理的角度來說,就是所產生的隨機序列必須構成一個0與1之間的均値分配(uniform distribution)的隨機樣本。如本書第五章所述,0與1之間的均値隨機變數能夠出現任何0與1之間的任何實數,且出現在任何相同寬度的數值區間的機率皆相等。
驗證一個亂數產生器,是否符合均値隨機變數的假設的方法,與本章中的每一個例子相同,包含序列隨機性與均等分配適合度等兩個檢定程序。隨機性檢定與之前的作法相同,我們不再重複說明。底下是適合度的檢定過程:
首先將數值0與1之間分割成k = 100個等分。 當樣本長度等於n,期望中落入每一個小區間的數值數目等於Ei = 0.01 n。 實際上落入每個寬度等於0.01區間的觀察值總數等於Oi。上兩符號中的i = 1, …, 100。 將期望與觀察次數帶入公式,就會獲得一個自由度等於100 – 1= 99的卡方分配的統計量q。 只有在q >χ2 99, α時,我們才能夠否定這個亂數產生器;否則我們沒有任何理由懷疑這個亂數產生器符合0與1之間的均値分配的基本假設。
本小節適合度檢定的資料分組數目k = 100,似乎與第四章資料彙整與呈現說明的4至20相差很多。主要是為了確保一個隨機亂數產生器的隨機序列,確實如同0與1之間的均值分配的隨機變量,均衡的散佈在各個小區間。
|