지도학습

지도학습이란?

데이터
- 입력(특성)과 정답(라벨)이 쌍으로 있는 데이터
목표
- 새 입력이 들어오면 정답을 잘 맞추는 규칙을 학습
지도학습의 종류
- 회귀 : 예측값이 숫자 (가격, 점수, 온도)
- 분류 : 예측값이 범주 (스팸/정상, 질병 유/무)
혼동행렬 (Confusion Matrix)
- 예측값과 실제값 사이의 관계를 행렬 형태로 표현한 것
- 구성요소
  - TP (True Positive): 실제 양성, 예측도 양성
  - TN (True Negative): 실제 음성, 예측도 음성
  - FP (False Positive): 실제는 음성인데 양성이라 함 (오탐)
  - FN (False Negative): 실제는 양성인데 음성이라 함 (누락)
- 정밀도
  - 양성이라 판정한 것 중 진짜 양성의 비율
    
    $$ \text{Precision} = \frac{TP}{TP + FP} $$
- 재현율
  - 진짜 양성 가운데 잡아낸 예측 양성의 비율
    
    $$ \text{Recall (Sensitivity)} = \frac{TP}{TP + FN} $$
- F1-score
  - 정밀도와 재현율의 조화평균 (Harmonic Mean)
    
    $$ F_1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

오버피팅

오버피팅
- 훈련 데이터의 우연한 패턴/잡음 까지 외워버려서 훈련에서는 잘 맞지만 테스트에서는 성능이 나빠지는 현상
“오버피팅” ≠ “분포 변화로 인한 에러 증가”
- 분포 변화로 인한 오류는 훈련 데이터 분포와 테스트 분포가 달라 성능이 떨어지는 현상
  
  ⇒ 이는 모델이 과적합하지 않아도 발생할 수 있음

교차검증 (Cross-Validation)

훈련 오류 vs 테스트 오류
- 훈련 오류 : 모델을 학습시킨 같은 데이터에 다시 적용해 계산한 오류 - 암기
- 테스트 오류 : 학습에 쓰지 않은 새 관측치에 대해 모델을 적용했을 때의 평균 예측오류 - 응용
테스트 성능 평가
- 이상적으로는 충분히 큰 별도의 테스트 데이터셋으로 평가하는 것이 좋겠지만, 현실적으로 어렵다
- 이를 위한 대안으로 **재표본화(resampling)**를 할 수 있다
  - 검증셋(hold-out)
  - K겹 교차검증(K-fold Cross-Validation)
  - Leave-One-Out 교차검증

검증셋 (Validation Set) 접근

검증셋(홀드아웃) 방법
- 가용 샘플들을 무작위로 훈련셋과 검증셋(hold-out)으로 분할
- 훈련셋으로 모델 적합, 검증셋으로 예측 후 검증 오류를 계산
- 검증 오류는 보통 정량 반응은 MSE, 범주 반응은 오분류율(또는 F1-score)을 측정한다
검증 절차
- 데이터 순서 무작위 셔플링 후 두 부분으로 분할 : 왼쪽(파랑)=훈련셋, 오른쪽(주황)=검증셋
- 학습 → 훈련셋
- 성능평가 → 검증셋
⇒ 하지만 이런 검증셋 방법은 어떤 표본이 훈련/검증에 들어가느냐에 따라 검증 기반 테스트 오류 추정치가 매우 가변적임

검증 접근에서는 훈련셋(=전체의 일부)만으로 모델을 적합하므로, 전체 데이터로 학습했을 때보다 성능이 낮게 추정(즉, 테스트 오류를 과대 추정)될 수 있음. 학습에 데이터를 부분만 사용하기 때문임.

K-겹 교차검증 (K-fold Cross-Validation)

K-겹 교차검증 (k-fold Cross-Validation)
- 테스트 오류 추정의 표준적 접근
- 추정치는 모델 선택과 최종 모델의 테스트 오류 규모 파악에 활용
- 데이터 전체를 크기 동일한 K개 폴드로 무작위 분할
  
  → 각각 폴드 1~K를 검증, 나머지 K-1개를 훈련에 사용
  
  k=1, …, K에 대해 반복 후, 평균 오류로 테스트 오류를 추정
K-겹 교차검증 단계
- 데이터를 먼저 셔플링한 뒤, 총 n개의 데이터를 겹치지 않는 K개 그룹으로 분할
- 각 그룹이 번갈아 검증셋(주황), 나머지는 훈련셋(파랑)
- K개의 MSE를 평균해 테스트 오류를 추정