[기초통계] 공분산, 상관관계 개념과 의미
업데이트:
공분산, 상관관계 개념과 의미
참고링크
- 확률변수 복습하기
- 확률분포 복습하기
- 모집단과 표본 복습하기
- 평균과 분산 복습하기
- 공분산, 상관계수 복습하기
- 최대가능도추정 복습하기
이산확률분포
- 베르누이분포, 이항분포
- 기하분포, 음이항분포
- 초기하분포
- 포아송분포
연속확률분포
- 정규분포
- 감마분포
- 지수분포
- 카이제곱분포
- 베타분포
- 균일분포
1. 공분산
1-1. 공분산의 정의
공분산(covariance)은 두 개의 확률변수의 상관정도를 나타내는 값이다.
만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향이 있다면 공분산의 값은 양수가 됩니다. 반대로 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 됩니다.
$ Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})] $
1-2. 공분산의 성질
$ Cov(X, X) = Var(X) $
$ Cov(X, Y) = Cov(Y, X) $
$ Cov(aX, bY) = abCov(X, Y) $
$ Cov\bigg( \sum_{i=1}^{n}X_{i}, \sum_{j=1}^{m}Y_{j} \bigg) = \sum_{i=1}^{n}\sum_{j=1}^{m}Cov(X_i, Y_j) $
$ Var\bigg( \sum_{i=1}^{n}X_{i} \bigg) = \sum_{i=1}^{n}Var(X_i) + 2\sum_{i,j:i<j}Cov(X_i, X_j) $
공분산행렬
$ Cov(X, Y) = E[(X-\mu_{x})(X-\mu_{y})^{T}] $
1-3. 공분산의 한계
공분산을 이용하면 두 개의 확률변수의 상관정도를 구할 수 있지만, 공분산에는 한계가 있습니다. 이는 분산, 표준편차 때와 비슷한데요. 공분산은 단위에 영향을 받습니다. 즉, 확률변수가 큰 값을 다룬다면 공분산도 커지고, 작은 값을 다룬다면 공분산은 작아집니다. 예를 들어, ‘키(height)’를 다룬다고 했을때 센티미터(cm)를 쓴다면 주로 100 ~ 200 사이의 값이 수집될 것이고, 밀리미터(mm)를 쓴다면 1,000 ~ 2,000 사이의 값이 수집 될 것 입니다. 공분산의 이러한 문제를 해결하기 위해 나온 것이 상관관계 입니다.
2. 상관관계
2-1. 상관관계 정의
상관관계는 두 변수간에 어떤 선형 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법이다. 이때 두 변수간의 관계의 강도를 상관계수(correlation coefficient)라고 한다.
2-2. 피어슨 상관 계수
피어슨 상관계수(Pearson correlation coefficient)는 보편적으로 사용되는 상관계수입니다.
$ r_{X, Y} = \frac{\text{X와 Y가 함께 변하는 정도}}{X와 Y가 각각 변하는 정도}$
$ r_{X, Y} = \frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}} = \frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}} $
보통 피어슨 상관계수값이 0에 가까울 수록 상관관계는 없다고 해석 되며, +1, -1에 가까울수록 상관관계가 강하다고 해석합니다. 공분산과는 달리 피어슨 상관계수는 -1부터 1사이에만 존재하므로, 단위에 영향을 받지 않습니다.