[기초통계] 공분산, 상관관계 개념과 의미

업데이트:

공분산, 상관관계 개념과 의미

참고링크

1. 공분산

1-1. 공분산의 정의

공분산(covariance)은 두 개의 확률변수의 상관정도를 나타내는 값이다.

만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향이 있다면 공분산의 값은 양수가 됩니다. 반대로 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 됩니다.

$ Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})] $

1-2. 공분산의 성질

$ Cov(X, X) = Var(X) $

$ Cov(X, Y) = Cov(Y, X) $

$ Cov(aX, bY) = abCov(X, Y) $

$ Cov\bigg( \sum_{i=1}^{n}X_{i}, \sum_{j=1}^{m}Y_{j} \bigg) = \sum_{i=1}^{n}\sum_{j=1}^{m}Cov(X_i, Y_j) $

$ Var\bigg( \sum_{i=1}^{n}X_{i} \bigg) = \sum_{i=1}^{n}Var(X_i) + 2\sum_{i,j:i<j}Cov(X_i, X_j) $

공분산행렬

$ Cov(X, Y) = E[(X-\mu_{x})(X-\mu_{y})^{T}] $

1-3. 공분산의 한계

공분산을 이용하면 두 개의 확률변수의 상관정도를 구할 수 있지만, 공분산에는 한계가 있습니다. 이는 분산, 표준편차 때와 비슷한데요. 공분산은 단위에 영향을 받습니다. 즉, 확률변수가 큰 값을 다룬다면 공분산도 커지고, 작은 값을 다룬다면 공분산은 작아집니다. 예를 들어, ‘키(height)’를 다룬다고 했을때 센티미터(cm)를 쓴다면 주로 100 ~ 200 사이의 값이 수집될 것이고, 밀리미터(mm)를 쓴다면 1,000 ~ 2,000 사이의 값이 수집 될 것 입니다. 공분산의 이러한 문제를 해결하기 위해 나온 것이 상관관계 입니다.

2. 상관관계

2-1. 상관관계 정의

상관관계는 두 변수간에 어떤 선형 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법이다. 이때 두 변수간의 관계의 강도를 상관계수(correlation coefficient)라고 한다.

2-2. 피어슨 상관 계수

피어슨 상관계수(Pearson correlation coefficient)는 보편적으로 사용되는 상관계수입니다.

$ r_{X, Y} = \frac{\text{X와 Y가 함께 변하는 정도}}{X와 Y가 각각 변하는 정도}$

$ r_{X, Y} = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}} = \frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}} $

보통 피어슨 상관계수값이 0에 가까울 수록 상관관계는 없다고 해석 되며, +1, -1에 가까울수록 상관관계가 강하다고 해석합니다. 공분산과는 달리 피어슨 상관계수는 -1부터 1사이에만 존재하므로, 단위에 영향을 받지 않습니다.


잠깐! 선형대수, 머신러닝에 대해 좀 더 자세히 알고 싶다면?

선형대수와 통계학으로 배우는 머신러닝 with 파이썬