單尾檢定與雙尾檢定 | 數據科學入門 - AI TAIWAN 台灣人工智慧中心

介紹

如果你曾經使用內建的 t 檢定功能來分析數據，例如 R 或 SciPy 中的功能，這裡有個問題要問你：你有沒有調整過替代假設的預設設定？如果你的答案是「沒有」——或者你甚至不確定這是什麼意思——那麼這篇文章就是為你而寫的！

替代假設參數，通常在統計學中稱為「單尾」或「雙尾」，定義了控制組和處理組之間期望的差異方向。在雙尾檢定中，我們評估兩組之間的平均值是否存在差異，而不指定方向。相反，單尾檢定則假設一個特定的方向——無論控制組的平均值是否小於或大於處理組的平均值。

在單尾和雙尾假設之間選擇可能看起來是一個小細節，但它影響著 A/B 測試的每一個階段：從測試計劃到數據分析和結果解釋。這篇文章將建立一個理論基礎，解釋為什麼假設方向很重要，並探討每種方法的優缺點。

單尾與雙尾假設檢定：理解差異

要理解在單尾和雙尾假設之間選擇的重要性，我們先簡單回顧一下 t 檢定的基本知識，這是 A/B 測試中常用的方法。像其他假設檢定方法一樣，t 檢定始於一個保守的假設：兩組之間沒有差異（即虛無假設）。只有當我們找到強有力的證據反對這個假設時，我們才能拒絕虛無假設，並得出處理有影響的結論。

那麼，什麼算是「強有力的證據」呢？為此，我們在虛無假設下確定一個拒絕區域，所有落在這個區域內的結果被視為不太可能，因此我們將其視為反對虛無假設的證據。這個拒絕區域的大小基於一個預定的概率，稱為 alpha (α)，它代表錯誤拒絕虛無假設的可能性。

這與替代假設的方向有什麼關係呢？其實關係很大。雖然 alpha 水平決定了拒絕區域的大小，但替代假設則決定了它的位置。在單尾檢定中，我們假設有一個特定的差異方向，拒絕區域僅位於分佈的一側。如果假設有正面影響（例如，處理組的平均值高於控制組的平均值），那麼拒絕區域會位於右側，形成右尾檢定。相反，如果我們假設有負面影響（例如，處理組的平均值低於控制組的平均值），那麼拒絕區域會位於左側，形成左尾檢定。

相比之下，雙尾檢定允許檢測任一方向的差異，因此拒絕區域分佈在兩側。這樣可以考慮到在任一方向上觀察到極端值的可能性，無論影響是正面還是負面。

為了幫助理解，讓我們想像一下不同假設下拒絕區域的樣子。根據虛無假設，兩組之間的差異應該圍繞零。根據中央極限定理，我們也知道這個分佈近似於正態分佈。因此，對應於不同替代假設的拒絕區域看起來是這樣的：

為什麼這會有影響？

替代假設的方向選擇影響整個 A/B 測試過程，從計劃階段開始——特別是在確定樣本大小時。樣本大小是根據測試的期望效能計算的，效能是指在存在真實差異時檢測到該差異的概率。為了計算效能，我們檢查與拒絕區域相對應的替代假設下的區域（因為效能反映了在替代假設為真時拒絕虛無假設的能力）。

由於假設的方向影響拒絕區域的大小，因此雙尾假設的效能通常較低。這是因為拒絕區域分佈在兩側，使得在任一方向上檢測到影響變得更加困難。以下圖表顯示了兩種假設之間的比較。請注意，單尾假設的紫色區域比雙尾假設的區域大：

在實踐中，為了保持期望的效能水平，我們通過增加樣本大小來補償雙尾假設的效能降低（增加樣本大小會提高效能，雖然這個機制可以成為另一篇文章的主題）。因此，單尾和雙尾假設之間的選擇直接影響你測試所需的樣本大小。

除了計劃階段，替代假設的選擇還直接影響結果的分析和解釋。有些情況下，單尾方法可能會達到顯著性，但雙尾方法卻不會，反之亦然。回顧之前的圖表可以幫助說明這一點：例如，左側尾部的結果在雙尾假設下可能顯著，但在右側單尾假設下卻不顯著。相反，某些結果可能落在右側單尾檢定的拒絕區域內，但在雙尾檢定中卻位於拒絕區域之外。

如何決定使用單尾還是雙尾假設

讓我們從結論開始：這裡沒有絕對的正確或錯誤選擇。這兩種方法都是有效的，主要考量應該是你的具體業務需求。為了幫助你決定哪個選項最適合你的公司，我們將概述每種方法的主要優缺點。

乍一看，單尾替代假設似乎是明顯的選擇，因為它通常更符合業務目標。在行業應用中，重點通常是改善特定指標，而不是探索處理的影響在兩個方向上的情況。這在 A/B 測試中特別相關，因為目標通常是優化轉換率或提高收入。如果處理沒有帶來顯著改善，則不會實施所檢查的變化。

除了這一概念上的優勢，我們已經提到單尾假設的一個關鍵好處：它需要較小的樣本大小。因此，選擇單尾替代假設可以節省時間和資源。為了說明這一優勢，以下圖表顯示了在不同效能水平下，單尾和雙尾假設所需的樣本大小（alpha 設定為 5%）。

在這種情況下，單尾和雙尾假設之間的決定在序列測試中特別重要——這是一種允許持續數據分析而不提高 alpha 水平的方法。在這裡，選擇單尾檢定可以顯著縮短測試的持續時間，促進更快的決策，這在需要快速反應的動態商業環境中尤為重要。

然而，不要急著忽視雙尾假設！它也有自己的優勢。在某些業務情境中，檢測「負面顯著結果」的能力是一個重要的好處。正如一位客戶曾經分享的，他更喜歡負面顯著結果而不是不確定的結果，因為這提供了有價值的學習機會。即使結果不是他所期望的，他也可以得出處理有負面影響的結論，並獲得對產品的見解。

雙尾檢定的另一個好處是可以使用信賴區間 (CIs) 進行簡單的解釋。在雙尾檢定中，不包含零的信賴區間直接表明顯著性，使從業者能夠一目了然地解釋結果。這種清晰性特別吸引人，因為信賴區間在 A/B 測試平台中被廣泛使用。相反，在單尾檢定中，顯著結果的信賴區間可能仍然包含零，這可能導致對結果的困惑或不信任。雖然可以在單尾檢定中使用單側信賴區間，但這種做法不太常見。

結論

通過調整一個參數，你可以顯著影響你的 A/B 測試：具體來說，就是你需要收集的樣本大小和結果的解釋。在決定使用單尾還是雙尾假設時，考慮可用的樣本大小、檢測負面影響的優勢，以及將信賴區間 (CIs) 與假設檢定對齊的便利性。最終，這一決定應該經過深思熟慮，考慮到什麼最符合你的業務需求。

(注意：本文中的所有圖片均由作者創建)

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

單尾檢定與雙尾檢定 | 數據科學入門

Kubernetes — 有效理解與運用探針

注意落差：安息吧，數據治理

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph：一個可視化和分析大型語言模型推理過程的網絡平台

生成式人工智慧的影響及其對數據科學家的啟示

這篇AI論文介紹了BD3-LMs：一種結合自回歸模型和擴散模型的混合方法，用於可擴展和高效的文本生成

九個生鏽的Pico PIO瓦特（第二部分）

開始使用 Amazon Bedrock Agents 的電腦操作

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

注意落差：安息吧，數據治理

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

單尾檢定與雙尾檢定 | 數據科學入門

介紹

單尾與雙尾假設檢定：理解差異

為什麼這會有影響？

如何決定使用單尾還是雙尾假設

結論

Kubernetes — 有效理解與運用探針

注意落差：安息吧，數據治理

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆