검정(hypothesis testing)

가설검정의 필요성
- 콜레스테롤이 평균적으로 200mg/dl 이라고 하자
- 콜레스테롤 감소 캠페인을 진행하고, 1년뒤 50명을 대상으로 조사를 해봤는데 195mg/dl가 됐네
  - 가능성 A: 캠페인은 효과가 없는데 50명 뽑은게 운이 좋아서, 낮아졌다.
  - 가능성 B: 캠페인이 효과가 있어서 도시 전체의 평균이 낮아졌다.
  - 가설검정은 A를 설명하기 위해 필요함
- 내가 본 데이터의 변화가 우연인지, 근거가 있는 변화인지 판별하는 필터가 필요기 때문에 필요함!

가설검정

모수에 대한 가설이 적합한지 추출한 표본으로 판단하는것

가설

귀무가설( $H_{0}$ ): 없다고 주장하는 가설
- 콜레스테롤 수치는 200mg/dl 이고, 과거 1년전과 차이가 없다.
대립가설( $H_{1}$ ): 있다고 주장하는 가설
- 콜레스테롤 수치는 200mg/dl 보다 작다. 즉 1년전보다 작다.

가설의 판정

연구자가 귀무가설 $H_{0}$ 의 판정기준을 설정
- 기준은 상위 5%, 하위 5%, 상하위 2.5% 등으로 설정가능

유의수준

" $α %$ 보다 희귀한 확률을 진짜라고 믿을 것이다" 라고 생각하는 것과 그 수준
- cf) p-value: 귀무가설이 맞다고 가정했을때, 우연히 우리의 관측값이 나올 확률
  - p-value가 유의수준보다 낮으면 귀무가설을 기각함
유의수준과 임계값
- 유의수준보다 크거나 작게 하는 값의 지점을 임계값이라고 함
- 상위 5%
  - 평균이 200mg/dl 이라고 가정했는데, 관측값이 207(예시)보다 크게 나올확률이 5%이다.
  - 207보다 높다면, 우연히 높은게 아니고 귀무가설을 기각
- 하위 5%
  - 평균이 200mg/dl 이라고 가정했는데, 관측값이 193.49(예시)보다 작게 나올확률이 5%이다.
  - 193.49 낮다면, 우연히 낮은게 아니고 귀무가설을 기각
- 상하위 2.5%
  - 평균이 200mg/dl 이라고 가정했는데, 관측값이 212보다 크거나 189보다 작다 -> 그러면 관측값이 우연히 다른게 아니고 귀무가설을 기각

가설에 대한 판정

실제/판정	기각 못함	기각
참	옳은 결정	제 1종 오류 확률
거짓	제 2종 오류 확률	옳은 결정

제 1종 오류 확률(type I error probability, $α$ ) : 귀무가설이 맞는데, 기각하는 확률
제 2종 오류 확률(type II error probability, $β$ ) : 귀무가설이 틀린데, 기각하지 않는 확률
검정력(power, $1 - β$ ) : 대립가설이 옳을때, 대립가설이 옳다고 말할 확률

가설에 대한 판정에 대한 고찰

가설과 확률분포
- 제한된 표본에 의한 가설이므로, $H_{0}$ 와 $H_{1}$ 은 확률분포를 따르게 됨
  - 같은 데이터와 표준오차를 가짐으로 ( $S . E . (\overset{―}{X}) = \frac{σ}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}$ ) 둘의 확률분포 모양은 정확하게 같음 (데이터가 많으면 z-분포, 적으면 t-분포)
  - 데이터가 많아질수록 오차가 적어져, 평균에 몰리는 형태의 홀쭉한 그래프가 됨 (반대는 뚠뚠한 그래프)
- $α$ 를 크게하면 $β$ 가 작아짐
- $α$ 를 작게하면 $β$ 가 커짐
- 위의 그림처럼 우리가 긋는 $α$ 가 어느정도인지 예상할 수가 없음
  - $α$ 는 정해진 값이므로, 데이터의 개수를 늘려, $α$ 에 대한 $β$ 값을 줄이는 방법이 있음
p-value가 말해주지 않는것
- 데이터가 무한히 많아지면, 아주 미세한 평균차이도 p-value는 0이 되버림
  - 어떤 다이어트약이 1년동안 평균 0.0001kg 빠졌다. -> 데이터가 무한히 많아, 아주아주 유의미함이라고 나오게됨
  - 하지만 0.0001kg 을 위해 돈을 지불하는 사람은 없을것임
- 효과 크기
  - $d = \frac{| μ_{1} - μ_{0} |}{σ}$
  - 변동성에 비해 얼마나 큰 차이인지 서술해주어, 가성비를 따질 수 있게함
  - 효과 크기안에 평균이 존재하는데, 평균의 차이가 $β$ 에 영향을 주므로 평균의 차이를 아는것이 어느정도 변화를 잡아낼 수 있는지에 아주 중요하다고 볼 수 있음
  - 평균의 차이가 작아지면 $β$ 가 커짐
  - 평균의 차이가 커지면 $β$ 가 커짐
- 결론
  - 평균의 차이가 $β$ 의 크기를 알려주기 때문에, 해당 정보를 이용해 검정의 효과를 예측할 수 있음

가설검정 세팅

위에서 언급한대로 $β$ 에 따라 전략에 대한 이해를 달리할 수 있음
- 이 전략은 5% 이상의 수익 차이는 확실히 잡아낼 수 있는 세팅이었는데(낮은 $β$ ), 결과가 안 나왔으니 진짜 5% 수익은 안 나는 게 맞구나.
- 이 세팅은 1% 수익 차이는 거의 못 잡는 세팅이었네( $β$ 가 너무 높음). 결과가 안 나왔다고 해서 1% 수익 전략이 아니라고 단정할 순 없겠어."
MDE (Minimum Detectable Effect) 결정
- $n = {(\frac{(Z_{α / 2} + Z_{β}) \cdot σ}{M D E})}^{2}$
- MDE: 내가 잡고싶은 최소한의 차이
  - 예) 수익률 2%가 유의미하게 나는지
    - 0.1% -> 좁쌀일수록 큰 돋보기(n)필요
    - 10% -> 코끼리일수록 작은 돋보기도 충분
- $σ$ : (시장의) 변동성이 클수록 신호를 찾기 어려워 더 많은 데이터가 필요함
- $Z_{α / 2}$ : 유의수준 5% 기준 1.96, 운을 실력이라고 착각하지 않을 엄격함의 정도 (1종오류확률)
- $Z_{β}$ : 검정력 90%기준 1.28, 실력을 놓치지 않을 예리함의 정도 (2종오류확률)
예시
- 알고리즘 수익률 변동성( $σ$ )이 연간 15%(0.15) 정도라고 가정하고, 연간 수익률 차이 **2%(0.02)**를 90% 확률로 잡아내고 싶을때 데이터의 개수
  1. 분자 계산: $(1.96 + 1.28) \times 0.15 = 3.24 \times 0.15 = 0.486$
  2. 분모 나누기: $0.486 / 0.02 = 24.3$
  3. 제곱하기: ${24.3}^{2} \approx 590$
- 결과: 약 590개의 데이터가 필요
- 만약 이게 일간 수익률 데이터라면? 약 2.3년 치(590일)의 매매 데이터가 있어야 "내 전략이 시장보다 2% 높은 건 실력이다"라고 90% 확신하며 말할 수 있다는 뜻