aneta-ivanova-776

Background

基本上是把以前做的筆記變成一篇文章啦.

Variance(變異數)

在機率論和統計學中用來描述它的離散程度, 也就是該變數離其期望值的距離, 當變異數愈小代表資料分佈愈集中, 變異數愈大代表資料分佈愈分散. 一個隨機變數的變異數描述的是它的離散程度, 也就是該變數離其期望值的距離.

數學定義:

$$ Var(x) = \frac{1}{n} \sum_{i=1}^N (x-\bar{x})^2 $$

也有以下方式表示:

$$ Var(x) = \frac{1}{n-1} \sum_{i=1}^N (x-\bar{x})^2 $$

要了解 n-1 的背後原因, 首先必須知道母體和樣本的差別. 母體是我們的關心對象,通常我們會想要知道有關它的資訊. 比如我們可能有興趣知道, 全國成年民眾當中,贊成台獨的占多少百分比. 但是就如同這個例子的「全國成年民眾」母體通常都很龐大, 幾乎不可能對它蒐集完整資訊, 通常只能從其中抽取樣本, 再從樣本裡找相關資訊. 因此n-1可以把它當作有點修正的感覺!

以下是變異數常見的Rule:

  • Variance Rule 1, if y = v + w, Var(y) = Var(v) + Var(w) + 2Cov(v, w).
  • Variance Rule 2, if y = az, where a is a constant, Var(y) = $ a^2 $Var(z).
  • Variance Rule 3, if y = a, where a is a constant, Var(y) = 0.
  • Variance Rule 4, if y = v + a, where a is a constant, Var(y) = Var(v).

Standard Deviation(標準差)

在機率統計中最常使用作為統計分佈程度(statistical dispersion)上的測量. 標準差定義為變異數(Variance)的算術平方根, 反映組內個體間的離散程度. 測量到分佈程度的結果, 原則上具有兩種性質: 為非負數值與測量資料具有相同單位.

$$s = \sqrt{s}$$

Covariance(共變數)

當X, Y兩隨機變數不互為獨立時, 表示兩者間有關連. 其關連的形式有很多種, 最常見的關連為線性的共變關係。隨機變數X,Y間的線性關係可用兩個統計量來測量 1.共變數(covariance), 2.相關係數 (correlation coefficient). 兩者都能衡量兩變數之間是否有線性關係存在.

$$ Cov(x, y) = \frac{1}{n}[(x_1-\bar{x})(y_1-\bar{y}) + ... + (x_n-\bar{x})(y_n-\bar{y})] = \frac{1}{n}\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})$$

舉個例子, 下表是一個學歷(S)與時薪(Y)的關係表, 以及標在二維上的圖

1

2

因此我們希望利用共變數(covariance)來分析 S Y 兩個變數之間的關係, 因此得到下面兩張圖

3

4

最後我們可以算出 Covariance 的值為 15.294 表示 S Y 這兩個變數之間的關係是正關係!

也就代表學歷通常越高的他的時薪也會比較高!

以下是Covariance常見的Rule:

  • Covariance Rule 1, If y = v+w, Cov(x,y) = Cov(x,v) + Cov(x,w).
  • Covariance Rule 2, If y = az, where a is a constant and z is a variable, Cov(x,y) = aCov(x,z).
  • Covariance Rule 3, If y = a, where a is a constant, Cov(x,y) = 0.

Correlation Coefficient(相關係數)

$$ r_{x,y} = \frac{\sqrt{Cov(x,y)}}{\sqrt{Var(x)Var(y)}} $$

correlation coefficient值介於 -1 ~ 1之間用來判斷兩個變數的正相關 or 負相關.

如果值為0的話 表示沒有這兩個變數在Sample中沒有任何的關連.

最後correlation coefficient 是一個比 covariance 用來判斷兩個變數之間關連更佳的辦法.

主要原因如下:

The covariance depends on the units in which the variables x and y happen to be measured, whereas the correlation coefficient does not.