다변량 정규분포와 선형회귀(multivariate analysis)

다변량 정규분포

모양 의미 데이터의 특징
완전한 원 독립적 두 변수가 아무 상관 없음 (예: 내 시력과 내 통장 잔고)
기울어진 타원 상관관계 있음 하나가 커지면 다른 하나도 커짐/작아짐 (예: 키와 몸무게)
아주 얇은 타원 강한 결합 하나를 알면 다른 하나를 거의 확실히 맞출 수 있음 (예: 섭씨와 화씨 온도)

Pasted image 20260303172042.png
Pasted image 20260303172236.png
- 왼쪽 그림: 변수 1이 커지면, 변수 2도 커지는 경향
- 오른쪽 그림: 변수 1과 변수 2가 독립적임

[1차원 정규분포 식]

f(x)=12πσ2exp((xμ)22σ2)

[다변량 정규분포 식 (k차원)]

f(x)=1(2π)k|Σ|exp(12(xμ)TΣ1(xμ))

선형회귀

선형회귀의 종류

다변량 정규분포를 모르고 데이터만 잔뜩있을때 선형회귀 정답을 어떻게 찾을 것인가?

선형회귀의 가정

구분 대상 의미 선형 회귀에서의 역할
각각 정규분포 개별 변수 각자의 분포만 예쁨 큰 의미 없음
다변량 정규분포 변수들의 조합 전체 구조가 예쁜 3차원 종 모양 선형 회귀가 완벽하게 작동하는 이상적인 상태
오차 정규분포 예측의 틀린 정도 직선 주변의 구름만 예쁨 실제로 모델을 돌리기 위해 꼭 필요한 조건

수학적 검증

lnL(w,b)=Constant12σ2i=1n(yi(wxi+b))2

- 이유 : ln(i=1nPi)=ln(P1×P2××Pn)=ln(P1)+ln(P2)++ln(Pn)=i=1nln(Pi)
- 전체 값(lnL)을 최대로 만들고 싶나요?
- 그렇다면 마이너스() 기호 뒤에 있는 덩어리인 i=1n(yi(wxi+b))2을 최소로 만들어야 합니다.
- (yiy^i)2 (잔차 제곱합) > 이게 바로 **OLS(최소제곱법)**가 최소화하려고 했던 바로 그 '거리의 제곱합'입니다!

오차 함수

선형회귀의 오차함수

딥러닝에서의 오차함수

경사하강법

wnew=woldηLw