로지스틱 회귀분석 (logistic regression)

로지스틱 회귀분석

로지스틱 회귀의 확률변수

odds와 log-odds (승산과 로짓)

승산비 (OR)

최대우도추정

혼동행렬

예측 상태 실제 양성 실제 음성
양성 예측 참인 양성(TP) 거짓 양성(FP), type I error
음성 예측 거짓 음성(FN), type II error 참인 음성(TN)

혼동행렬에서 뽑을 수 있는 지표

지표명 수식 의미 (직관적 해석)
정확도 (Accuracy) TP+TNTotal 전체 중 맞춘 비율 (가장 기본이지만 함정이 많음)
정밀도 (Precision, PPV) TPTP+FP "양성이라고 예측한 것 중" 진짜 양성인 비율 (예측의 질)
재현율 (Recall, TPR) TPTP+FN "실제 양성인 것 중" 모델이 찾아낸 비율 (검출 능력)
특이도 (Specificity, TNR) TNTN+FP "실제 음성인 것 중" 모델이 음성이라고 맞춘 비율

예시

  1. 금융/투자 (퀀트 프로젝트 등): 정밀도(Precision)가 중요합니다. "살까 말까" 고민할 때, 샀는데 떨어지면 큰일남. (사기꾼을 걸러내는 것)
  2. 의료/안전 (의료 연구 등): 재현율(Recall)이 중요합니다. "부상 위험"을 감지할 때, 위험한데 정상이라고 판단하면 큰 사고가 님 (환자를 놓치지 않는 것)
  3. "데이터가 불균형할 때(예: 유병률 1.5%처럼 아주 희귀한 경우) 왜 정확도만 믿으면 안 되는가?"라는 질문에 F1 점수정밀도/재현율로 답변하시면 합격입니다.