상관계수(correlation coefficient)

상관계수

상관계수란

변수 간의 움직임의 일관성을 설명하는 계수
한쪽이 커질때, 다른 한쪽은 어떻게 되는지 그 정도를 설명하는 지표
1이나 -1에 가까울수록 일치하는것, 0에 가까울수록 상관이 없는것
일반적으로 아래의 표와 같이 인식함

상관계수 값 (절대값 r)	해석 (일반적인 기준)
$0.0$ ~ $0.1$	상관관계가 거의 없음 (무시할 만한 수준)
$0.1$ ~ $0.3$	약한 상관관계 (경향성은 보이나 미미함)
$0.3$ ~ $0.5$	중간 정도의 상관관계 (의미 있는 관계)
$0.5$ ~ $0.7$	강한 상관관계 (상당히 밀접함)
$0.7$ ~ $1.0$	매우 강한 상관관계 (거의 운명 공동체)

상관계수의 함정

상관관계는 인과관계가 아님: A와 B의 상관계수가 $0.9$ 라고 해서, "A 때문에 B가 생겼다"라고 말할 수는 없음.
- 예: 아이스크림 판매량과 익사 사고 횟수는 상관계수가 높지만, 둘 다 '여름'이라는 공통 원인 때문이지 아이스크림이 익사를 유발하는 건 아님
그래프를 꼭 그려봐야 함: 숫자는 $0$ 인데 실제로는 아주 예쁜 곡선 형태(U자형 등)로 관계가 있을 수도 있음
- 피어슨 상관계수는 '직선' 관계만 잡기 때문

피어슨 상관계수 (직선)

두 변수 사이의 선형적(Linear) 관계가 얼마나 강한지를 측정
데이터가 등간 척도나 비율 척도(예: 키, 몸무게, 점수)일 때 주로 사용하며, 가장 보편적인 방법
특징: 두 변수가 모두 정규분포를 따른다는 가정이 필요하며, 이상치(Outlier)에 매우 민감함
범위: $- 1 \leq r \leq 1$ ( $1$ 은 완벽한 양의 선형 관계, $- 1$ 은 완벽한 음의 선형 관계)

수식:

r_{x y} = \frac{\sum_{i = 1}^{n} (X_{i} - \bar{X}) (Y_{i} - \bar{Y})}{\sqrt{\sum_{i = 1}^{n} (X_{i} - \bar{X})^{2}} \sqrt{\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2}}}

공분산을 표준편차의 곱으로 나눔

스피어먼 상관계수 (경향)

두 변수의 순위(Rank) 사이의 단조적(Monotonic) 관계를 측정
- 특정 변수의 순위가 올라갈때, 다른 변수의 순위도 올라가는가? (구불구불)
데이터의 실제 값 대신 '순위'를 사용하기 때문에, 비선형 관계라도 한쪽이 커질 때 다른 쪽도 커지는 경향만 있다면 높게 나타남
특징: 서열 척도(예: 등수) 데이터에 적합하며, 피어슨에 비해 이상치에 강한 편
범위: $- 1 \leq ρ \leq 1$

수식: (순위 차이를 $d_{i}$ 라고 할 때)

ρ = 1 - \frac{6 \sum d_{i}^{2}}{n (n^{2} - 1)}

켄달의 타우 (순서 일치)

두 변수 간의 순위 일치성을 측정
- 특정 변수의 원소가 1등일때, 대응하는 다른 변수의 원소도 1등인가?
모든 가능한 쌍(Pair)을 만들어, 그 쌍들의 순서가 일치하는지(Concordant) 혹은 뒤집혀 있는지(Discordant)를 비교함
특징: 샘플 사이즈가 작거나 데이터 내에 동일한 값(Tied ranks)이 많을 때 스피어먼보다 더 신뢰할 수 있다고 평가받음
범위: $- 1 \leq τ \leq 1$

수식:

τ = \frac{(일치하는 쌍의 수) - (불일치하는 쌍의 수)}{\frac{1}{2} n (n - 1)}

편상관계수

제 3의 변수가 끼어들어 생기는 왜곡을 걷어내고, 두 변수의 순수한 관계만 찾는 상관계수

편상관계수의 필요성

두 변수 $X$ 와 $Y$ 의 상관관계가 높게 나왔다고 가정
제3의 변수 $Z$ 가 $X$ 와 $Y$ 모두에게 영향을 주고 있어서 착시가 날 수 있음
예시 (아이스크림과 익사 사고):
- $X$ : 아이스크림 판매량
- $Y$ : 익사 사고 횟수
- $Z$ : 기온 (여름)
그냥 보면 $X$ 와 $Y$ 는 양의 상관관계가 매우 높음
기온( $Z$ )의 영향력을 통계적으로 제거하고 나면, 아이스크림과 익사 사고 사이에는 아무런 직접적인 관계가 없다는 것을 알 수 있음
이때 구하는 것이 편상관계수

수식 (1차 편상관계수)

세 변수 $X, Y, Z$ 가 있을 때, $Z$ 를 고정(통제)한 상태에서 $X$ 와 $Y$ 사이의 상관계수( $r_{x y \cdot z}$ )는 다음과 같이 구함

r_{x y \cdot z} = \frac{r_{x y} - r_{x z} r_{y z}}{\sqrt{1 - r_{x z}^{2}} \sqrt{1 - r_{y z}^{2}}}

$r_{x y}$ : $X$ 와 $Y$ 의 단순 상관계수
$r_{x z}$ : $X$ 와 $Z$ 의 단순 상관계수
$r_{y z}$ : $Y$ 와 $Z$ 의 단순 상관계수