什麼是自由度(Degrees of Freedom)?
自由度是指在給定數據樣本中,最大數量的邏輯上獨立的值,這些值可以有所不同。自由度的計算方法是從數據樣本中的項目數量中減去 1。
關鍵要點
- 自由度是指在給定數據樣本中,最大數量的邏輯上獨立的值,這些值可以有所不同。
- 自由度的計算方法是從數據樣本中的項目數量中減去 1。
- 自由度的最早概念在 1800 年代初數學家和天文學家卡爾·弗裡德裡希·高斯的著作中得到了注意。
- 自由度在各類假設檢驗中經常被討論,例如卡方檢驗。
- 自由度也可以描述管理層必須做出決定以決定另一個變量結果的業務情況。
理解自由度
自由度是指在統計分析中可以估計的獨立變量數量,告訴您在設置約束之前可以隨機選擇多少項。 在數據集中,一些初始數字可以隨機選擇。 但是,如果數據集必須加起來達到特定的總和或均值,例如,數據集中的數量受限於評估數據集中所有其他值的值,然後滿足設置要求。
自由度的例子
例子 1
考慮一個由五個正整數組成的數據樣本。五個整數的值必須有一個平均值為六。如果數據集中有四個項目為 {3, 8, 5 和 4},第五個數字必須為 10。因為前四個數字可以隨機選擇,自由度是四。
例子 2
考慮一個由五個正整數組成的數據樣本。這些值可以是任何數,彼此之間沒有已知的關係。因為所有五個數可以隨機選擇,沒有任何限制,自由度是四。
例子 3
考慮一個由一個整數組成的數據樣本。該整數必須是奇數。由於數據集中有單一項目的限制,自由度為零。
自由度公式
計算自由度的公式是:
Df = N – 1
其中:
- Df = 自由度
- N = 樣本數量
例如,假設要選擇十個棒球選手,他們的打擊率必須平均為 0.250。組成我們數據集的總數量是樣本大小,所以 N = 10。在這個例子中,可以隨機選擇 9 (10 – 1) 個棒球選手,第 10 個棒球選手的打擊平均值要符合 0.250 的約束。
一些具有多個參數或關係的自由度計算使用公式 Df = N – P,其中 P 是不同參數或關係的數量。例如,在 2 樣本 t 檢驗中,由於有兩個參數需要估計,使用 N – 2。
應用自由度
在統計學中,自由度定義了在 t 檢驗中計算 p 值時使用的 t 分佈的形狀。根據樣本大小,不同的自由度會顯示出不同的 t 分佈。計算自由度對於理解卡方統計量的重要性和原假設的有效性至關重要。
自由度在統計學之外也有概念應用。例如,考慮一家公司在其製造過程中決定購買原材料。該公司有兩個項目在這個數據集中:購買的原材料數量和原材料的總成本。
公司可以自由決定其中一個項目,但其選擇將決定另一個項目的結果。因為它只能自由選擇其中一個,所以在這種情況下它有一個自由度。如果公司決定原材料的數量,它就不能決定總共花費的數額。通過設定總共花費的數額,公司可能會限制其可以獲得的原材料數量。
卡方檢驗
卡方檢驗有兩種不同的類型:獨立性檢驗,如「性別和 SAT 成績之間是否存在關聯?」以及適合度檢驗,如「如果將硬幣投擲 100 次,結果是 50 次正面和 50 次反面嗎?」。
在這些檢驗中,自由度可用於確定是否可以基於實驗中的總變量和樣本數量拒絕原假設。例如,考慮學生和課程選擇,30 或 40 名學生的樣本量可能不足以產生顯著數據。使用 400 或 500 名學生的樣本量進行研究得到相同或相似的結果更為有效。
t 檢驗
要進行 t 檢驗,您需要計算樣本的 t 值,並將其與臨界值進行比較。臨界值會有所不同,您可以使用數據集的 t 分布和自由度來確定正確的臨界值。
較低自由度的集合極值的概率較高,更高自由度(例如樣本大小至少為 30)的集合將更接近正態分布曲線。較小的樣本大小將對應較小的自由度,並導致更胖的 t 分布尾部。
在上例中,許多情況可以用作單樣本 t 檢驗。例如,’例子 1’,選擇五個值,但必須加起來達到特定的平均值,可以定義為單樣本 t 檢驗。這是因為對變量只有一個限制。
自由度的歷史
自由度的最早和最基本的概念在 1800 年代初,由數學家和天文學家卡爾·弗裡德裡希·高斯的著作中涉足。現代使用和理解該術語首先由英國統計學家威廉·席利·戈塞特在他的文章《平均值的可能誤差》中闡述,該文章於 1908 年在《生物圖譜》中以筆名發表,以保持匿名。
在他的寫作中,戈塞特並沒有具體使用「自由度」這個詞。他解釋了該概念,並開發出了最終被稱為「學生 t 分佈」的概念。這個術語直到 1922 年才流行開來。英國生物學家和統計學家羅納德·費舍爾在發表有關他開發卡方檢驗的文章和數據時開始使用「自由度」這個術語。
如何確定自由度?
在確定一組數據的平均值時,自由度的計算方法是將該組數據中的項目數量減去 1。這是因為在該組數據中,所有項目可以隨機選擇,直到一個剩餘;那一項必須符合給定的平均值。
自由度告訴你什麼?
自由度告訴您在給定規則監管下,集合中有多少單位可以在沒有約束的情況下被選擇。舉例來說,考慮一組由五個項目組成的集合,這些項目的平均值為 20。自由度告訴您在設置約束之前,有多少項目(4)可以隨機選擇。在這個例子中,一旦選擇了前四個項目,您就不能隨機選擇數據點,因為必須「強制平衡」給定的平均值。
自由度總是 1 嗎?
自由度總是給定集合中的單位數減去 1。這總是減去一個,因為如果在數據集中設置了參數,則最後的數據項目必須具體,使所有其他點符合該結果。
總結
某些統計分析過程可能要求表明在分析中可以變化的獨立值的數量以符合約束要求。這個指示是自由度,樣本大小中可以隨機選擇的單位數量,在必須選擇特定值之前。