介紹
如果你曾經使用內建的 t 檢定功能來分析數據,例如 R 或 SciPy 中的功能,這裡有個問題要問你:你有沒有調整過替代假設的預設設定?如果你的答案是「沒有」——或者你甚至不確定這是什麼意思——那麼這篇文章就是為你而寫的!
替代假設參數,通常在統計學中稱為「單尾」或「雙尾」,定義了控制組和處理組之間期望的差異方向。在雙尾檢定中,我們評估兩組之間的平均值是否存在差異,而不指定方向。相反,單尾檢定則假設一個特定的方向——無論控制組的平均值是否小於或大於處理組的平均值。
在單尾和雙尾假設之間選擇可能看起來是一個小細節,但它影響著 A/B 測試的每一個階段:從測試計劃到數據分析和結果解釋。這篇文章將建立一個理論基礎,解釋為什麼假設方向很重要,並探討每種方法的優缺點。
單尾與雙尾假設檢定:理解差異
要理解在單尾和雙尾假設之間選擇的重要性,我們先簡單回顧一下 t 檢定的基本知識,這是 A/B 測試中常用的方法。像其他假設檢定方法一樣,t 檢定始於一個保守的假設:兩組之間沒有差異(即虛無假設)。只有當我們找到強有力的證據反對這個假設時,我們才能拒絕虛無假設,並得出處理有影響的結論。
那麼,什麼算是「強有力的證據」呢?為此,我們在虛無假設下確定一個拒絕區域,所有落在這個區域內的結果被視為不太可能,因此我們將其視為反對虛無假設的證據。這個拒絕區域的大小基於一個預定的概率,稱為 alpha (α),它代表錯誤拒絕虛無假設的可能性。
這與替代假設的方向有什麼關係呢?其實關係很大。雖然 alpha 水平決定了拒絕區域的大小,但替代假設則決定了它的位置。在單尾檢定中,我們假設有一個特定的差異方向,拒絕區域僅位於分佈的一側。如果假設有正面影響(例如,處理組的平均值高於控制組的平均值),那麼拒絕區域會位於右側,形成右尾檢定。相反,如果我們假設有負面影響(例如,處理組的平均值低於控制組的平均值),那麼拒絕區域會位於左側,形成左尾檢定。
相比之下,雙尾檢定允許檢測任一方向的差異,因此拒絕區域分佈在兩側。這樣可以考慮到在任一方向上觀察到極端值的可能性,無論影響是正面還是負面。
為了幫助理解,讓我們想像一下不同假設下拒絕區域的樣子。根據虛無假設,兩組之間的差異應該圍繞零。根據中央極限定理,我們也知道這個分佈近似於正態分佈。因此,對應於不同替代假設的拒絕區域看起來是這樣的:
為什麼這會有影響?
替代假設的方向選擇影響整個 A/B 測試過程,從計劃階段開始——特別是在確定樣本大小時。樣本大小是根據測試的期望效能計算的,效能是指在存在真實差異時檢測到該差異的概率。為了計算效能,我們檢查與拒絕區域相對應的替代假設下的區域(因為效能反映了在替代假設為真時拒絕虛無假設的能力)。
由於假設的方向影響拒絕區域的大小,因此雙尾假設的效能通常較低。這是因為拒絕區域分佈在兩側,使得在任一方向上檢測到影響變得更加困難。以下圖表顯示了兩種假設之間的比較。請注意,單尾假設的紫色區域比雙尾假設的區域大:

在實踐中,為了保持期望的效能水平,我們通過增加樣本大小來補償雙尾假設的效能降低(增加樣本大小會提高效能,雖然這個機制可以成為另一篇文章的主題)。因此,單尾和雙尾假設之間的選擇直接影響你測試所需的樣本大小。
除了計劃階段,替代假設的選擇還直接影響結果的分析和解釋。有些情況下,單尾方法可能會達到顯著性,但雙尾方法卻不會,反之亦然。回顧之前的圖表可以幫助說明這一點:例如,左側尾部的結果在雙尾假設下可能顯著,但在右側單尾假設下卻不顯著。相反,某些結果可能落在右側單尾檢定的拒絕區域內,但在雙尾檢定中卻位於拒絕區域之外。
如何決定使用單尾還是雙尾假設
讓我們從結論開始:這裡沒有絕對的正確或錯誤選擇。這兩種方法都是有效的,主要考量應該是你的具體業務需求。為了幫助你決定哪個選項最適合你的公司,我們將概述每種方法的主要優缺點。
乍一看,單尾替代假設似乎是明顯的選擇,因為它通常更符合業務目標。在行業應用中,重點通常是改善特定指標,而不是探索處理的影響在兩個方向上的情況。這在 A/B 測試中特別相關,因為目標通常是優化轉換率或提高收入。如果處理沒有帶來顯著改善,則不會實施所檢查的變化。
除了這一概念上的優勢,我們已經提到單尾假設的一個關鍵好處:它需要較小的樣本大小。因此,選擇單尾替代假設可以節省時間和資源。為了說明這一優勢,以下圖表顯示了在不同效能水平下,單尾和雙尾假設所需的樣本大小(alpha 設定為 5%)。

在這種情況下,單尾和雙尾假設之間的決定在序列測試中特別重要——這是一種允許持續數據分析而不提高 alpha 水平的方法。在這裡,選擇單尾檢定可以顯著縮短測試的持續時間,促進更快的決策,這在需要快速反應的動態商業環境中尤為重要。
然而,不要急著忽視雙尾假設!它也有自己的優勢。在某些業務情境中,檢測「負面顯著結果」的能力是一個重要的好處。正如一位客戶曾經分享的,他更喜歡負面顯著結果而不是不確定的結果,因為這提供了有價值的學習機會。即使結果不是他所期望的,他也可以得出處理有負面影響的結論,並獲得對產品的見解。
雙尾檢定的另一個好處是可以使用信賴區間 (CIs) 進行簡單的解釋。在雙尾檢定中,不包含零的信賴區間直接表明顯著性,使從業者能夠一目了然地解釋結果。這種清晰性特別吸引人,因為信賴區間在 A/B 測試平台中被廣泛使用。相反,在單尾檢定中,顯著結果的信賴區間可能仍然包含零,這可能導致對結果的困惑或不信任。雖然可以在單尾檢定中使用單側信賴區間,但這種做法不太常見。
結論
通過調整一個參數,你可以顯著影響你的 A/B 測試:具體來說,就是你需要收集的樣本大小和結果的解釋。在決定使用單尾還是雙尾假設時,考慮可用的樣本大小、檢測負面影響的優勢,以及將信賴區間 (CIs) 與假設檢定對齊的便利性。最終,這一決定應該經過深思熟慮,考慮到什麼最符合你的業務需求。
(注意:本文中的所有圖片均由作者創建)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!