考神人設是圈內包裝老師常用策略
772025-07-05 07:34:20
點擊上方,All in AI中國
每個數據科學家都會遇到這樣一個問題,什麽是P值,我們如何在統計分析中使用它?
每個數據科學麵試中至少有一個問題是關於P值及其目的的。所以,在這篇文章裏,我將討論P值的語境、過程和目的。對統計檢驗、置信區間和統計能力的錯誤解讀和濫用已經被譴責了幾十年,但仍然猖獗。因為這些概念需要高度和時間,這種高認知需求導致捷徑定義和解釋的流行,這些定義和解釋是完全錯誤的,有時甚至是災難性的。然而,這些誤解在大多數科學文獻中占主導地位。
統計測試
在統計測試的大多數應用中,模型中的一個假設是特定的影響具有特定的大小,並且已經成為統計分析的目標。這種有針對性的假設稱為研究假設或檢驗假設,用來評價它的統計方法稱為統計假設檢驗。最常見的是,目標效應的大小是一個“空”值,表示零效應(例如,研究處理對平均結果沒有影響)。在這種情況下,檢驗假設稱為零假設。但是,也可以測試其他效果。我們還可以檢驗假設效應是否屬於特定範圍;比如,我們可以檢驗效應不大於一定量的假設。在這種情況下,假設被認為是片麵假設。
很多統計學教學和實踐都形成了一種強烈的(也是不健康的)焦點,即研究的主要目的應該是檢驗零假設。其實大部分統計檢驗隻是描述了原假設,整個題目叫做“原假設顯著性檢驗”。零假設的這種排他性會導致對檢驗的誤解。更具誤導性的是,許多作者使用“零假設”來指代任何測試假設,即使這種用法與其他作者不一致,並且在通用英語中被定義為“無效”。
更精確的統計分析的目標是提供對影響的確定性或不確定性的評估。我們用假設的“可能性”來表達這種確定性。但是,在傳統的統計方法中,“概率”並不是指假設,而是指在假設的統計模型下,數據模式的假設頻率的個數。這些方法因此被稱為頻率論方法,其預測的假設頻率被稱為“頻率概率”,而不是假設概率(誤解)。
P值
假設頻率稱為P值,也稱為檢驗假設的“觀察顯著性水平”。p值和統計顯著性的傳統定義圍繞著零假設,我們把所有其他用來計算p值的假設都視為完全正確。由於我們不確定這些假設,我們將學習更一般的P值視圖,這是對觀察數據和我們預測或期望看到的數據之間的兼容性的統計總結,如果我們知道整個統計模型是正確的。
測試統計(如T統計或卡方統計)用於測量數據和模型預測之間的距離。如果每個模型假設都是正確的,包括檢驗假設,那麽P值就是所選檢驗統計量至少與其觀察值一樣大的概率。這一定義反映了傳統定義中丟失的一個關鍵點:在邏輯上,P值測試所有關於數據如何生成的假設(整個模型),而不僅僅是它應該測試的目標假設(如零假設)。
通過獲得一個更小的p值,我們可以說,如果所有的假設都是正確的,那麽數據將更加不尋常;但是一個非常小的p值並不能告訴我們關於假設有效性的任何事情。我們舉個例子。當P值因為假設的目標而非常小時,可能是因為違反了研究方案而很小,也可能是用不正確的數據分析的。相反,較大的p值表明數據在統計模型下並不罕見,但它並沒有告訴我們關於模型的有效性和假設的任何事情。由於違反了研究協議,它可能非常大,或者它可能使用不正確的數據進行分析,或者隻是為了表達的目的而提出有效的觀點。
建立一個好的統計模型最好的方法是計算置信區間,現在很多期刊都需要這個。
這種對檢驗中無效假設的關注,不僅會導致對檢驗和估計值評價的誤解,還會掩蓋P值和置信區間之間的密切關係,以及它們共同的弱點。
本文到此結束,希望對大家有所幫助呢。