什麼是敘述統計(Descriptive Statistics)?

敘述統計是簡要的資訊係數,用於總結給定的數據集,可以是整個群體的代表或群體的一個樣本。敘述統計分為集中趨勢度量和變異性(擴散)度量。集中趨勢度量包括平均數、中位數和眾數,而變異性度量包括標準差、方差、最小和最大變量、峰度和偏斜度。

關鍵要點

  • 敘述統計總結或描述一個數據集的特徵。
  • 敘述統計由三個基本類別的度量組成:集中趨勢度量、變異性(或擴散)度量和頻率分佈。
  • 集中趨勢度量描述數據集的中心(平均數、中位數、眾數)。
  • 變異性度量描述數據集的離散性(方差、標準差)。
  • 頻率分佈度量描述數據集中數據的出現次數(計數)。

理解敘述統計

敘述統計通過對樣本和數據的度量進行簡短總結,幫助描述和理解特定數據集的特徵。最常見的敘述統計類型是集中度量。例如,平均數、中位數和眾數,這些在幾乎所有數學和統計學層級中使用,用來定義和描述數據集。平均數,即平均值,是通過將數據集中的所有數字相加,然後除以數據集中數字的總數計算得出的。

例如,以下數據集的總和為20:(2, 3, 4, 5, 6)。平均數為4(20/5)。數據集的眾數是出現最頻繁的值,而中位數是位於數據集中央的數字。這是將數據集中較高數字與較低數字分開的數值。然而,還有一些不太常見但非常重要的敘述統計類型。

人們使用敘述統計,將難以理解的大數據集中量化的見解轉化為小片段描述。例如,學生的平均成績點數(GPA)提供了對敘述統計的良好理解。GPA的概念是,它從大量考試、課程和成績中獲取數據點,並將它們平均在一起,以提供對學生整體學術表現的一般理解。學生的個人GPA反映了他們的平均學術表現。

敘述統計,尤其是在醫學等領域,經常使用散佈圖、直方圖、折線圖或莖葉圖視覺地描述數據。稍後我們將在本文中討論更多視覺化內容。

敘述統計的類型

所有敘述統計都可以歸為集中趨勢度量或變異性度量,也稱為擴散度量。

集中趨勢

集中趨勢度量關注數據集的平均值或中間值,而變異性度量則關注數據的擴散。這兩種度量方法使用圖表、表格和一般討論,幫助人們理解分析數據的意義。

集中趨勢度量描述數據集的分佈中心位置。分析人員會分析數據集中每個數據點的頻率,並使用平均數、中位數或眾數來描述,這些是最常見的分析數據集模式。

變異性度量

變異性度量(或擴散度量)有助於分析數據集的分佈程度。例如,集中趨勢度量可能給出數據集的平均值,但它並不描述數據在集合中的分佈方式。

因此,儘管數據的平均值可能是100分中的65分,但數據點仍可能在1和100之間。變異性度量通過描述數據集的形狀和分佈來幫助溝通這一點。範圍、四分位數、絕對偏差和方差都是變異性度量的例子。

考慮以下數據集:5, 19, 24, 62, 91, 100。該數據集的範圍是95,通過將數據集中最低的數字(5)從最高的數字(100)中減去來計算。

分佈

分佈(或頻率分佈)指的是數據點出現的次數。或者,它是指數據點不出現的測量。考慮一個數據集:男,男,女,女,女,其他。該數據的分佈可以分類為:

  • 數據集中男性的數量是2。
  • 數據集中女性的數量是3。
  • 數據集中標識為其他的數量是1。
  • 數據集中非男性的數量是4。

單變量與雙變量

在敘述統計中,單變量數據僅分析一個變數。它用來識別單個特徵的特性,並不用來分析任何關係或因果關係。

例如,想像一間充滿高中生的房間。假設你想收集房間裡每個人的平均年齡。此單變量數據僅依賴於一個因素:每個人的年齡。通過從每個人那裡收集這一單獨的信息,然後除以總人數,你可以確定平均年齡。

另一方面,雙變量數據試圖通過尋找相關性來連接兩個變數。收集了兩種類型的數據,並一起分析這兩個信息片段之間的關係。由於分析了多個變量,這種方法也可以稱為多變量。

假設以上例子中的每個高中學生都參加了大學評估測試,我們想查看較年長的學生是否比較年輕的學生表現更好。除了收集學生的年齡外,我們還需要收集每個學生的測試成績。然後,使用數據分析,我們數學或圖形地描繪是否存在學生年齡和測試成績之間的關係。

財務報表的準備和報告是敘述統計的例子。分析這些財務信息以決定未來的行動是推論統計。

敘述統計和視覺化

敘述統計的重要方面之一是圖形表示。有效地可視化數據分佈是非常強大的,這可以通過多種方式來實現。

直方圖是顯示數值數據分佈的工具。它們將數據分為箱(區間),並通過不同高度的條表示每個箱中的數據點頻率或計數。直方圖幫助識別分佈形狀、集中趨勢和數據的變異性。

另一種視覺化是箱線圖。箱線圖,也稱為箱鬚圖,它通過突出顯示主要摘要統計數據,包括中位數(箱內的中線)、四分位數(箱的邊緣)和潛在的異常值(在「鬍鬚」外的點)來提供數據分佈的簡要摘要。箱線圖直觀地描繪了數據的分佈和偏斜,特別有助於比較不同群體或變量的分佈。

敘述統計和異常值

每當討論敘述統計時,重要的是要注意異常值。異常值是數據集中顯著不同於其他觀察值的數據點,這些可能是錯誤、異常或數據中的罕見事件。

檢測和管理異常值是敘述統計的一步,以確保數據分析的準確性和可靠性。要識別異常值,可以使用圖形技術(如箱線圖或散佈圖)或統計方法(如Z分數或IQR方法)。這些方法幫助定位顯著偏離數據整體模式的觀察值。

異常值的存在可能對敘述統計有顯著影響。在統計學中,這非常重要,因為這可能影響結果並影響數據的解釋。異常值可以不成比例地影響集中趨勢度量,如平均數,將其拉向極端值。例如,(1, 1, 1, 997)的數據集,其平均值是250,即使這幾乎不能代表該數據集。這種失真可以導致誤導性的結論,關於數據集的典型行為。

根據上下文,異常值可以通過刪除它們(如果它們確實是錯誤或不相關)來處理。或者,異常值可能包含重要信息,應保留以展示它們可能表現出的價值。分析數據時,考慮異常值能貢獻的相關性,並考慮是否更合理地將這些數據點從敘述統計計算中剔除。

敘述統計與推論統計

敘述統計的功能與推論統計不同,後者用於決策或將一個數據集的特徵應用於另一個數據集。

想像另一個例子,其中一家公司銷售辣椒醬。該公司收集銷售數量、每次交易的平均購買量和每週的平均銷售量等數據。所有這些信息都是描述性的,因為它講述了過去實際發生的事情。在這種情況下,它僅僅是資訊性的。

假設同一家公司想推出一款新辣椒醬,它收集了上述相同的銷售數據,但通過分析這些信息來預測新辣椒醬的銷量。這種使用敘述統計並將其應用於不同數據集的行為使該數據集成為推論統計。我們不再僅僅總結數據;我們正在使用它預測將要發生的關於完全不同數據體(新辣椒醬產品)的情況。

什麼是敘述統計?

敘述統計是通過生成關於數據樣本的摘要來描述數據集特徵的方法。它通常被描述為一種數據摘要,解釋數據的內容。例如,一次人口普查可能包括關於特定城市中男性和女性比例的敘述統計數據。

敘述統計的例子是什麼?

敘述統計是資訊性的,旨在描述數據集的實際特徵。當分析上一個美國職業棒球大聯盟賽季的數據時,敘述統計包括單個球員的最高打擊率、每支球隊允許的跑分數以及每個賽區的平均勝數。

敘述統計的主要目的是什麼?

敘述統計的主要目的是提供關於數據集的信息。在上述例子中,有成百上千的棒球運動員參與了成千上萬的比賽。敘述統計將大量的數據總結為幾個有用的信息片段。

敘述統計的類型有哪些?

敘述統計的三個主要類型是頻率分佈、集中趨勢和數據集的變異性。頻率分佈記錄數據出現的頻率,集中趨勢記錄數據分佈的中心點,數據集的變異性記錄其分佈的程度。

敘述統計可以用來作出推斷或預測嗎?

不可以。雖然這些描述有助於理解數據屬性,但需要使用推論統計技術——統計學的另一個分支——來理解數據集中的變量如何相互作用。

總結

敘述統計是指對描述數據集的發現進行分析、總結和傳達。敘述統計通常對決策沒有幫助,但在解釋高層摘要信息方面仍然具有價值,例如平均數、中位數、眾數、方差、範圍和信息計數。