
예측값과 실제값 사이의 관계를 행렬 형태로 표현한 것
구성요소
정밀도
양성이라 판정한 것 중 진짜 양성의 비율
$$ \text{Precision} = \frac{TP}{TP + FP} $$
재현율
진짜 양성 가운데 잡아낸 예측 양성의 비율
$$ \text{Recall (Sensitivity)} = \frac{TP}{TP + FN} $$
F1-score
정밀도와 재현율의 조화평균 (Harmonic Mean)
$$ F_1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$
분포 변화로 인한 오류는 훈련 데이터 분포와 테스트 분포가 달라 성능이 떨어지는 현상
⇒ 이는 모델이 과적합하지 않아도 발생할 수 있음
훈련 오류 vs 테스트 오류

테스트 성능 평가
검증셋(홀드아웃) 방법
검증 절차


⇒ 하지만 이런 검증셋 방법은 어떤 표본이 훈련/검증에 들어가느냐에 따라 검증 기반 테스트 오류 추정치가 매우 가변적임
검증 접근에서는 훈련셋(=전체의 일부)만으로 모델을 적합하므로, 전체 데이터로 학습했을 때보다 성능이 낮게 추정(즉, 테스트 오류를 과대 추정)될 수 있음. 학습에 데이터를 부분만 사용하기 때문임.
K-겹 교차검증 (k-fold Cross-Validation)
테스트 오류 추정의 표준적 접근
추정치는 모델 선택과 최종 모델의 테스트 오류 규모 파악에 활용
데이터 전체를 크기 동일한 K개 폴드로 무작위 분할
→ 각각 폴드 1~K를 검증, 나머지 K-1개를 훈련에 사용
k=1, …, K에 대해 반복 후, 평균 오류로 테스트 오류를 추정

K-겹 교차검증 단계