다중선형 회귀분석 (multiple linear regression analysis)

배경지식

행렬

행렬의 곱

$A_{i j} = Σ B_{i k} C_{k j}$
- 앞에 놈의 행을 $\to$ 로 훑고, 뒤에 놈의 열을 $↓$ 로 훑어서 곱한다.
  - 행이 i, 열이 j가 됨

전치 행렬

$A^{T}$ 혹은 $A^{'}$ 와 같이 표현
$A_{i j}$ -> $A_{j i}$ 로 바꾸게됨
- 행렬로 볼 경우, 왼쪽 위에서 시작하는 대각선을 축으로 데이터를 전부 대칭이동을 했다고 생각가능

벡터의 제곱합

$a^{'} a$ 와 같이 표현가능
- a' : [a1, a2, ..., an] (가로)
- a : [a1, a2, ..., an] (세로)
- a'a : $a_{1}^{2} + a_{2}^{2} + . . . a_{n}^{2}$
cf) 행렬일 경우
- $A^{'} A$ 처럼 표현가능
  - 각 원소의 내용 $a_{i j}$ 는 $a_{i k}^{'} \times a_{k j}$ 와 같이 표현이 됨
  - $c_{i j} = Σ a_{k i} \times a_{k j}$ 로 표현가능 ( $a_{i k}^{'}$ 는 $a_{k i}$ 와 같음)
  - i = j 일때는, $c_{i i} = a_{1 i}^{2} + a_{2 i}^{2} + . . . + a_{n i}^{2}$
    - i열의 모든 데이터를 제곱합
  - i != j 일때는, $c_{i j} = a_{1 i} \cdot a_{1 j} + a_{2 i} \cdot a_{2 j} + . . .$
    - i열과 j열의 데이터를 곱하여 더함 -> i열과 j열의 공분산과 비슷함
    - 후술할 T 행렬을 통과했다면, n-1로나누면 그게 공분산 행렬임

역행렬

$A^{- 1}$ 과 같이 표현하고, 곱해서 단위행렬(대각선만 1인)이 되는 행렬
- 분모가 0이면 안됨에 주의

T 행렬

중심화 행렬
$T = I - \frac{1}{n} J$
- J 행렬은 모든 원소가 1인 $n \times n$ 행렬
- Jy 를 구하게 되면 (벡터일때), 각 원소가 모두 $Σ Y_{i}$ 로 벡터 원소의 합이 됨
- 1/n 을 이때 곱해주게되면, 모든 원소가 $\bar{Y}$ 가 됨 (즉 평균의 벡터)
- Iy 에서 이를 빼주면, $Y_{i} - \bar{Y}$ 즉 모든 원소가 편차가 되게됨
이는 기존 벡터에서 평균을 빼주게 되므로, 벡터의 차의 성질에 의해 시작점이 평균이되고 크기는 편차인 그런 벡터로 변함
- cf) 벡터를 평균 벡터의 수직 보공간(Orthogonal Complement)으로 투영시킨다. "평균이라는 성분"을 가위로 싹둑 잘라내 버리는 행위.
T는 대칭이다. $T^{'} = T$ (T의 수식 참조)
T는 멱등이다. $T \times T = T$ (평균이 0 일테니)

양말과 신발의 법칙

$(A B C)^{'} = C^{'} B^{'} A^{'}$
$(A B C D)^{'} = D^{'} C^{'} B^{'} A^{'}$
$(A B C)^{- 1} = C^{- 1} B^{- 1} A^{- 1}$
$(A B C D)^{- 1} = D^{- 1} C^{- 1} B^{- 1} A^{- 1}$

원래는 양말을 신고(A) -> 신발을 신음(B)
되돌리려면 $B^{- 1}$ 신발을 벗고, $A^{- 1}$ 양말을 벗음
선형변환으로 바꾸면 그대로 적용이 됨

벡터/행렬의 미분

증명 생략

형태 (Scalar q)	미분 대상	결과 ( $\frac{\partial b}{\partial q}$ )	비유 (숫자 미분과 비교)
$a^{'} b$	$b$	$a$	$a x \to a$
$b^{'} a$	$b$	$a$	$x a \to a$
$b^{'} A b$	$b$	$2 Ab$ (단, $A$ 는 대칭)	$a x^{2} \to 2 a x$

다중선형 회귀분석

복잡한 관계를 수식과 숫자로 요약가능하게함
- 삼성전자 주가( $y$ )에 영향을 주는 요인이 환율( $x_{1}$ ), 금리( $x_{2}$ ), 반도체가격( $x_{3}$ )라고 하자
  - 환률이 1%오를 때 주가는 몇 % 변할까?
  - 금리와 환율 중 주가에 더 치명적인 것은 뭘까?
종속변수 $Y$ 와 $p - 1$ 개의 독립변수 존재(상수항 제외)
- $Y = β_{0} + β_{1} X_{1} + . . . + β_{p - 1} X_{p - 1} + e$
  - e는 표준정규분포를 따른다 가정
- $Y$ 를 n개로 확장시,
  - $y_{n \times 1} = X_{n \times p} β_{p \times 1} + e_{n \times 1}$

F-value 의 유도

SST와 SSR과 SSE의 관계를 나타내면 아래와 같음

잔차를 최소화하는 최소제곱법

잔차는 실제값(y)와 예측값 (Xb)의 차이임
- $S S E = e^{'} e = (y - X b)^{'} (y - X b)$
- 양말 법칙을 이용해 유도하면 $S S E = (y^{'} - b^{'} X^{'}) (y - X b) = y^{'} y - y^{'} X b - b^{'} X^{'} y - b^{'} X^{'} X b$
  - $y^{'} Xb$ 와 $b^{'} X^{'} y$ 는 계산해보면 같은 스케일러라 두개를 합침
- $S S E = y^{'} y - 2 b^{'} X^{'} y + b^{'} X^{'} X b$
위에서 구한 잔자제곱합을 최소화하기 위해 b로 미분을 진행
- y'y 는 상수, -2X'y, 2X'Xb (2차항이라 2가 튀어나옴)
- $- 2 X^{'} y + 2 X^{'} X b = 0$
- 즉, $X^{'} y = X^{'} X b$
  - cf) 수식을 다시 쓰면 $X^{'} (y - Xb) = 0$ , 즉 $X^{'} e = 0$
    - 오차가 최소화가 될때, 에러는 우리가 가진 데이터(평면)와 수직이다.
    - 그러면 X라는 평면위에서 $y^{2} = {\hat{y}}^{2} + e^{2}$ 가 성립함
      - 통계적으로는 (전체 변동 $S S T$ ) = (모델이 설명한 변동 $S S R$ ) + (오차 변동 $S S E$ ) 이됨
    - 이게 무슨말이야!
      - X는 p차원 평면임, y는 그 공간위에 떠있는 점임, 이때 원점에서 그점까지 이어, 하나의 벡터를 간주함
        
        그리고 그 선를 X에 투영시킬때 벡터 가중치 $β$ 를 사용함, 그 투영된 선을 $\hat{y}$ 라고 함
        
        $β$ 로 조금 튜닝해서 박아넣는것
      - 우리가 원하는 것은 오차를 최소화 하며 투영을 하는 $β$ 를 찾는것
        
        오차란 무엇이냐? 오차는 y와 $β$ 를 통해 투영된 $\hat{y}$ 의 끝점 끼리의 거리임
        
        오차를 최소화하려면, 평면에 수직하게 y를 투영해야함, 그것을 만들어주는 $β$ 를 찾는것임
        
        Xb 를 해서, 그 벡터( $\hat{y}$ )를 찾는것임, 그 벡터와 e가 수직하는 순간, 그때의 e는 최소화 된다.
아무튼, 리마인드
- $X^{'} y = X^{'} X b$
- 즉, $b = (X^{'} X)^{- 1} X^{'} y$

Hat Matrix

우리의 예측값
- $\hat{y} = X b$
위에서 구한 수식을 대입
- $\hat{y} = X b = X (X^{'} X)^{- 1} X^{'} y$
y를 예측값으로 바꾸어주니, $X (X^{'} X)^{- 1} X^{'}$ 를 hat matrix(H)라고 부름
- 대칭성: $H^{'} = H$
- 멱등성: $H H = H$

SST의 정리

총제곱합은 아래와 같이 정리 가능 ( $\frac{Σ Y_{i}}{n} = \overset{―}{Y}$ 를 이용)
$Y_{i}$ 와 그의 제곱합을 행렬로 표현하면
- $Σ Y_{i}^{2} = y^{'} y, Σ Y_{i} = 1^{'} y$
- 추가로 $(Σ Y_{i})^{2} = (1^{'} y)^{'} 1^{'} y = y^{'} 11^{'} y = y J y$
SST에 대입을 하면
- ( $y^{'} y = y^{'} I y$ 로 간주하여 유도)
결론: $S S T = y^{'} T y$

SSR의 정리

b는 hat beta 즉 $β$ 의 추정값 $\hat{β}$ 를 의미함
우리가 정의한 다중선형회귀식에서
- $Σ \hat{Y_{i}} = X β = \hat{y}$ , 하나의 예측 벡터의 합은 종속행렬과 회귀계수 벡터의 곱
- $Σ {\hat{Y_{i}}}^{2} = {\hat{y}}^{'} \hat{y} = (X β)^{'} (X β)$ , 제곱의 합은 벡터의 전치행렬의 곱으로 표현이되고 이를 풀면 마지막 항과 같이 유도가능
- $X^{'} y = X^{'} X b$ 에서 $b = (X^{'} X)^{- 1} X^{'} y$
- 또한 $Σ Y_{i} = 1^{'} y$
SSR은 아래와 같이 표현가능
- $S S R = (X b)^{'} (X b) - \frac{1}{n} y^{'} 11^{'} y$
  - $b = (X^{'} X)^{- 1} X^{'} y$ 를 대입하고 뒤집기를하면
- $= y^{'} X (X^{'} X)^{- 1} X^{'} X (X^{'} X)^{- 1} X^{'} y - \frac{1}{n} y^{'} 11^{'} y$
  - 역행렬이 상쇄되면
- $= y^{'} X (X^{'} X)^{- 1} X^{'} y - \frac{1}{n} y^{'} 11^{'} y$
  - $y^{'}$ 으로 묶으면
- $= y^{'} (X (X^{'} X)^{- 1} X^{'} - \frac{1}{n} J) y$
  - H (예측 배열) - 1/n J 평균배열( $\bar{y}$ ) 를 하니, 회귀다! (회귀 제곱합)
- $= y^{'} R y$
  - R은 Regression: 정답에 가까우면 커지는 값 (평균에서 멀어짐, 모델이 의미 있어짐)
  - R은 모델의 성적표라고 볼 수 있음

SSE의 정리

이전에 설명한것은 빼고 빠르게 진행
잔차는 I - H 이라고 볼 수 있음 (아래서 두번째 equation)
- $e = y - \hat{y}$
- $e = I y - H y$
- $e = (I - H) y$
- y라는 실제 데이터에 I - H 를 곱하니 오차가 등장함 -> 오차행렬

정리

필터 이름	수식	하는 일 (역할)	결과물
정답 필터 ( $I$ )	$I$	아무것도 안 하고 그대로 통과	$y$ (실제값)
예측 필터 ( $H$ )	$H$	평면 위로 내리꽂아 그림자 생성	$\hat{y}$ (예측값)
오차 필터 ( $E$ )	$I - H$	정답에서 예측된 성분만 제거	$e$ (순수 오차)

분산분석표

자유도를 나누어 F-value를 얻도록하자

F-value와 변수 선택

유의한 독립변수를 추가할때 사진과 같은 방식 사용
- 실제로 사용해보고 추후 다시 정리
X를 많이 추가하면 e가 최소화 되긴함, 하지만 오버피팅의 가능성이 있으므로, F-value가 유의하게 만드는 X만 추가하여 모델의 퀄리티를 올리기 위함