단순선형 회귀분석 (simple linear regression analysis)
- 회귀(regression)
- 독립변수에 대해 종속변수의 식을 만들고, 그 식에 대한 평가를 하는 것
- 독립변수 = X라고 보면됨
- 종속변수 = Y라고 보면됨
- 단순선형회귀모형: 독립변수와 종속변수가 각각 한개인 경우의 단순회귀모형
- 다중선형회귀모형: 두개 이상의 독립변수와 한개의 종속변수의 선형회귀모형
단순선형 회귀모형
- 독립변수와 종속변수가 각각 한개씩 이루어진 단순선형회귀모형
, 는 직선식을 결정하는 미지의 모수 은 서로 독립이고 평균이 0이며 분산이 인 정규분포를 따름 - 그에 따라 Y는
회귀계수의 추청
, 를 추정하는 방법을 설명함 - 잔차를 최소로 만드는 최소제곱법 사용
- 잔차: 실제 데이터 값과 우리 모델이 예측한 값의 사이의 차이
- 실제값(
): 우리가 실제로 관찰한 데이터 포인트의 세로 위치 - 예측값(
): 회귀직선위의 값 - 잔차(
): 이 둘 사이의 수직거리 ( ) - cf) 오차: 관측값이 아닌 실제 데이터와의 거리, 실제값을 알 수 없기 때문에 구할 수 없음
- 실제값(
- 제곱: 잔차마다 부호가 다르기 때문에, 상쇄될 수 있어 제곱을 사용, 또한 틀린것에 더 큰 패널티를 주기위해 제곱을 하여 더 크게 틀리는 것을 방지
- 잔차: 실제 데이터 값과 우리 모델이 예측한 값의 사이의 차이
회귀계수에 사용되는 수식

- 간단한 표본평균의 정의 사용하면 유도됨
회귀계수의 유도
- 잔차제곱합의 수식, q는
, 에 대한 타원 포물면이 됨 , 으로 편미분했을때 0이되는 지점은 타원 포물면의 최솟값이 됨
- 잔차제곱합의 수식, q는
- 정말 간단한 이항과 곱셈, 나눗셈만으로 아래의 수식이 유도됨

- 위에서 정리한 수식을 이용해 정리하면
선형회귀의 평가
- F-value를 이용해 가설검정
- 귀무가설:
이다. (기울기가 0이다 = 모델이 쓸모없다.) - 대립가설:
이다. (모델이 유의미하다.)
- 회귀제곱합과 잔차제곱합을 자유도로 나누어, 단위당 변동량을 확인
- 순수 에러보다, 모델이 설명하는 변동량이 더 크다는것을 보여야함

- 순수 에러보다, 모델이 설명하는 변동량이 더 크다는것을 보여야함
- 회귀와 잔차 제곱합의 수식
- 회귀 제곱합은 예측값에서 표본평균을 뺀것의 제곱합 -> 모델의 변동량
- 잔차 제곱합은 각 표본에서 대응하는 예측값을 뺀것의 제곱합 -> 에러의 크기
- 무한히 많은 x의 일원 ANOVA라고 볼 수 있음
- 그룹간의 변동 -> 직선의 변동