什麼是相關係數?
相關係數是衡量兩個變量之間線性關係強度的統計指標。其值範圍從 -1 到 1。相關係數為 -1 時,表示完美的負相關,即當一個系列的值上升時,另一個系列的值下降,反之亦然。相關係數為 1 時,表示完美的正相關,即直接關係。相關係數為 0 時,表示不存在線性關係。
相關係數被用於科學和金融領域,以評估兩個變量、因子或數據集之間的關聯程度。例如,由於高油價對原油生產者有利,人們可能會假設油價和原油股票未來回報之間的相關性極強。
基於市場數據計算這些變量的相關係數顯示,長期內的相關性為中等且不穩定。
主要要點
- 相關係數用於評估數據變量之間關聯性的強度。
- 最常見的相關係數是皮爾森相關係數,它衡量兩個變量之間線性關係的強度和方向。
- 其值總是範圍在 -1 到 1 之間,-1 表示完美的反向相關,1 表示完美的正向相關,而接近或等於 0 的值表示不存在線性關係或相關性非常弱。
- 判斷有意義的相關性所需的係數值取決於應用場景。相關性的統計顯著性可以從相關係數和樣本中的數據點數量計算得出,假設是正態分佈的情況下。
理解相關係數
不同類型的相關係數根據比較數據的特性來評估相關性。其中最常見的是皮爾森係數,或稱皮爾森 r,它衡量兩個變量之間線性關係的強度和方向。皮爾森係數不能評估變量之間的非線性關聯,也不能區分依賴變量和自變量。
皮爾森係數使用數學統計公式來衡量兩個變量的數據點(將一個數據系列的值標繪在 x 軸上,對應的另一個系列的值標繪在 y 軸上)與最佳擬合線的接近程度。最佳擬合線可以通過回歸分析確定。
相關係數離零越遠(無論是正還是負),擬合度越好,相關性越強。-1(表示負相關)和 1(表示正相關)的值描述了完美的擬合,即所有數據點成一直線排列,這表明變量之間的相關性是完美的。
換句話說,這種關係是如此可預測,以至於可以根據一個變量的值確定另一個變量的值。相關係數越接近零,相關性越弱,直到在零時,完全不存在線性關係。
根據相關係數值對相關性強度的評估因應用場景而異。在物理學和化學中,相關係數應小於 -0.9 或大於 0.9 才被認為是有意義的相關性,而在社會科學中,門檻可能是 -0.5 和 0.5。
對於從樣本中得出的相關係數,統計顯著性的判斷取決於 p 值,該 p 值是從數據樣本的大小以及係數值計算得出的。
相關係數公式
要計算皮爾森相關係數,首先要確定每個變量的標準差以及它們之間的協方差。相關係數等於協方差除以兩個變量標準差的乘積。
公式如下:
ρxy = Cov(x, y) / (σx σy)
其中:
ρxy = 皮爾森積矩相關係數
Cov(x, y) = 變量 x 和 y 的協方差
σx = x 的標準差
σy = y 的標準差
標準差是數據相對於其平均值的離散程度的度量。協方差顯示兩個變量是否趨於向同一方向移動,而相關係數則在範圍從 -1 到 1 的標準化尺度上測量這種關係的強度。
上面的公式可以進一步擴展為:
公式如下:
r = n (Σ(XY) – Σ(X) Σ(Y)) / sqrt[(n Σ(X2) – (Σ(X))2) (n Σ(Y2) – (Σ(Y))2)]
其中:
r = 相關係數
n = 觀測值的數量
相關統計與投資
相關係數在評估和管理投資風險方面特別有用。例如,現代投資組合理論建議,多樣化可以減少投資組合收益的波動性,從而降低風險。歷史收益之間的相關係數可以表明將某一投資品添加到投資組合中是否會提高其多樣化程度。
相關性計算也是因子投資的基本操作,這是一種基於超額回報相關因子的投資組合構建策略。同時,量化交易者使用歷史相關性和相關係數來預測證券價格的近期變動。
皮爾森相關係數的限制
俗話說,相關性不代表因果關係,皮爾森係數不能確定相關變量之一是否依賴於另一個變量。
相關係數也不能顯示依賴變量變異性的比例歸因於自變量。這是由決定係數(也稱為 R 平方)顯示的,它只是相關係數的平方。
相關係數不描述最佳擬合線的斜率;可以通過回歸分析中的最小平方法確定斜率。
皮爾森相關係數不能用於評估非線性關聯或來自非正態分佈樣本數據的關聯。它也可能被異常值(遠離分佈散佈圖的數據點)扭曲。
這些關係可以使用非參數方法來分析,例如斯皮爾曼相關係數、肯德爾秩相關係數或多層相關係數。
在 Excel 中尋找相關係數
在 Excel 中計算相關性最簡單的方法是將兩個數據系列輸入相鄰的列中,然後使用內置的相關性公式:
如果您想在一系列數據集中創建相關矩陣,Excel 在”數據”選項卡下的”數據分析”插件中有可用的選項。
選擇返回表格。在這種情況下,我們的列有標題,所以我們需要選中「第一行標籤」框,這樣 Excel 就知道將這些作為標題處理。然後您可以選擇在同一張表或新表中輸出結果。
按下 Enter 鍵將生成相關矩陣。您可以添加一些文本和條件格式來整理結果。
R 和 R2 是相同的嗎?
在分析係數時,R 和 R2 並不相同。R 代表皮爾森相關係數的值,用於表示變量之間的強度和方向,而 R2 代表決定係數,用於確定模型的強度。
您如何計算相關係數?
相關係數的計算方法是確定變量的協方差,然後將該數除以這些變量的標準差乘積。
相關係數在投資中是如何使用的?
相關係數在投資組合風險評估和量化交易策略中發揮著關鍵作用。例如,一些投資組合經理會監控其持倉的相關係數,以限制投資組合的波動性和風險。
總結
相關係數描述了一個變量相對於另一個變量的移動情況。正相關表示兩者同向移動,值為 1 表示完美的正相關。值為 -1 表示完美的負相關或反向相關,而值為 0 則表示不存在線性相關。