상관계수(correlation coefficient)
상관계수
상관계수란
- 변수 간의 움직임의 일관성을 설명하는 계수
- 한쪽이 커질때, 다른 한쪽은 어떻게 되는지 그 정도를 설명하는 지표
- 1이나 -1에 가까울수록 일치하는것, 0에 가까울수록 상관이 없는것

- 일반적으로 아래의 표와 같이 인식함
| 상관계수 값 (절대값 r) | 해석 (일반적인 기준) |
|---|---|
| 상관관계가 거의 없음 (무시할 만한 수준) | |
| 약한 상관관계 (경향성은 보이나 미미함) | |
| 중간 정도의 상관관계 (의미 있는 관계) | |
| 강한 상관관계 (상당히 밀접함) | |
| 매우 강한 상관관계 (거의 운명 공동체) |
상관계수의 함정
- 상관관계는 인과관계가 아님: A와 B의 상관계수가
라고 해서, "A 때문에 B가 생겼다"라고 말할 수는 없음. - 예: 아이스크림 판매량과 익사 사고 횟수는 상관계수가 높지만, 둘 다 '여름'이라는 공통 원인 때문이지 아이스크림이 익사를 유발하는 건 아님
- 그래프를 꼭 그려봐야 함: 숫자는
인데 실제로는 아주 예쁜 곡선 형태(U자형 등)로 관계가 있을 수도 있음 - 피어슨 상관계수는 '직선' 관계만 잡기 때문
피어슨 상관계수 (직선)
- 두 변수 사이의 선형적(Linear) 관계가 얼마나 강한지를 측정
- 데이터가 등간 척도나 비율 척도(예: 키, 몸무게, 점수)일 때 주로 사용하며, 가장 보편적인 방법
- 특징: 두 변수가 모두 정규분포를 따른다는 가정이 필요하며, 이상치(Outlier)에 매우 민감함
- 범위:
( 은 완벽한 양의 선형 관계, 은 완벽한 음의 선형 관계)
수식:
- 공분산을 표준편차의 곱으로 나눔
스피어먼 상관계수 (경향)
- 두 변수의 순위(Rank) 사이의 단조적(Monotonic) 관계를 측정
- 특정 변수의 순위가 올라갈때, 다른 변수의 순위도 올라가는가? (구불구불)
- 데이터의 실제 값 대신 '순위'를 사용하기 때문에, 비선형 관계라도 한쪽이 커질 때 다른 쪽도 커지는 경향만 있다면 높게 나타남
- 특징: 서열 척도(예: 등수) 데이터에 적합하며, 피어슨에 비해 이상치에 강한 편
- 범위:
수식: (순위 차이를
켄달의 타우 (순서 일치)
- 두 변수 간의 순위 일치성을 측정
- 특정 변수의 원소가 1등일때, 대응하는 다른 변수의 원소도 1등인가?
- 모든 가능한 쌍(Pair)을 만들어, 그 쌍들의 순서가 일치하는지(Concordant) 혹은 뒤집혀 있는지(Discordant)를 비교함
- 특징: 샘플 사이즈가 작거나 데이터 내에 동일한 값(Tied ranks)이 많을 때 스피어먼보다 더 신뢰할 수 있다고 평가받음
- 범위:
수식:
편상관계수
- 제 3의 변수가 끼어들어 생기는 왜곡을 걷어내고, 두 변수의 순수한 관계만 찾는 상관계수
편상관계수의 필요성
- 두 변수
와 의 상관관계가 높게 나왔다고 가정 - 제3의 변수
가 와 모두에게 영향을 주고 있어서 착시가 날 수 있음 - 예시 (아이스크림과 익사 사고):
: 아이스크림 판매량 : 익사 사고 횟수 : 기온 (여름)
- 그냥 보면
와 는 양의 상관관계가 매우 높음 - 기온(
)의 영향력을 통계적으로 제거하고 나면, 아이스크림과 익사 사고 사이에는 아무런 직접적인 관계가 없다는 것을 알 수 있음 - 이때 구하는 것이 편상관계수
수식 (1차 편상관계수)
- 세 변수
가 있을 때, 를 고정(통제)한 상태에서 와 사이의 상관계수( )는 다음과 같이 구함
: 와 의 단순 상관계수 : 와 의 단순 상관계수 : 와 의 단순 상관계수