빅데이터 분석기사 필기 4과목 빅데이터 결과 해석은 모델을 만든 후 성능을 어떻게 평가하고 개선하는지 다룹니다. 평가 지표 공식을 암기하고 각 지표가 어떤 상황에 적합한지 이해하면 고득점이 가능합니다. 실기에서도 직접 사용하는 내용이라 꼭 제대로 익혀두세요.
1. 혼동 행렬 (Confusion Matrix)
분류 모델의 예측 결과를 실제값과 비교하여 정리한 표입니다. 모든 분류 평가 지표의 기반이 됩니다.
예측 Positive
예측 Negative
실제 Positive
TP
True Positive
(정탐)
True Positive
(정탐)
FN
False Negative
(미탐)
False Negative
(미탐)
실제 Negative
FP
False Positive
(오탐)
False Positive
(오탐)
TN
True Negative
(정상 탐지)
True Negative
(정상 탐지)
| 용어 | 의미 |
|---|---|
| TP (True Positive) | 실제 양성을 양성으로 올바르게 예측 |
| FP (False Positive) | 실제 음성을 양성으로 잘못 예측 — 1종 오류, 오탐 |
| FN (False Negative) | 실제 양성을 음성으로 잘못 예측 — 2종 오류, 미탐 |
| TN (True Negative) | 실제 음성을 음성으로 올바르게 예측 |
2. 분류 평가 지표
정확도 (Accuracy) = (TP + TN) / (TP + FP + FN + TN)
정밀도 (Precision) = TP / (TP + FP)
재현율 (Recall) = TP / (TP + FN)
F1-Score = 2 × (Precision × Recall) / (Precision + Recall)
특이도 (Specificity) = TN / (TN + FP)
정밀도 (Precision) = TP / (TP + FP)
재현율 (Recall) = TP / (TP + FN)
F1-Score = 2 × (Precision × Recall) / (Precision + Recall)
특이도 (Specificity) = TN / (TN + FP)
| 지표 | 의미 | 중요한 상황 |
|---|---|---|
| 정확도 (Accuracy) | 전체 예측 중 맞춘 비율 | 클래스 불균형이 없을 때. 불균형 시 왜곡 |
| 정밀도 (Precision) | 양성으로 예측한 것 중 실제 양성 비율 | FP를 줄여야 할 때 (스팸 분류: 정상 메일을 스팸으로 분류하면 안 될 때) |
| 재현율 (Recall) | 실제 양성 중 양성으로 예측한 비율 | FN을 줄여야 할 때 (암 진단: 암 환자를 놓치면 안 될 때) |
| F1-Score | 정밀도와 재현율의 조화평균 | 정밀도와 재현율 균형이 중요할 때. 클래스 불균형 상황 |
| AUC-ROC | ROC 곡선 아래 넓이. 0.5~1 사이, 1에 가까울수록 좋음 | 이진 분류 모델의 전반적 성능 평가. 임계값 독립적 |
🎯 정밀도 vs 재현율 선택 기준
✔ 정밀도 중요: FP를 최소화해야 하는 경우
→ 스팸 필터(정상 메일을 스팸으로 분류하면 안 됨), 추천 시스템
✔ 재현율 중요: FN을 최소화해야 하는 경우
→ 암 진단(환자를 놓치면 안 됨), 사기 탐지, 결함 검출
✔ 정밀도와 재현율은 트레이드오프(Trade-off) 관계 — 하나를 높이면 다른 하나가 낮아짐
✔ 정밀도 중요: FP를 최소화해야 하는 경우
→ 스팸 필터(정상 메일을 스팸으로 분류하면 안 됨), 추천 시스템
✔ 재현율 중요: FN을 최소화해야 하는 경우
→ 암 진단(환자를 놓치면 안 됨), 사기 탐지, 결함 검출
✔ 정밀도와 재현율은 트레이드오프(Trade-off) 관계 — 하나를 높이면 다른 하나가 낮아짐
3. 회귀 평가 지표
MAE (Mean Absolute Error) = (1/n) × Σ|y - ŷ|
MSE (Mean Squared Error) = (1/n) × Σ(y - ŷ)²
RMSE (Root MSE) = √MSE
R² (결정계수) = 1 - (SSE / SST) → 1에 가까울수록 좋음
MSE (Mean Squared Error) = (1/n) × Σ(y - ŷ)²
RMSE (Root MSE) = √MSE
R² (결정계수) = 1 - (SSE / SST) → 1에 가까울수록 좋음
| 지표 | 의미 | 특징 |
|---|---|---|
| MAE | 예측값과 실제값 차이의 절댓값 평균 | 이상치에 덜 민감. 해석 직관적 |
| MSE | 예측값과 실제값 차이의 제곱 평균 | 이상치에 민감 (오차를 제곱하므로). 미분 가능 |
| RMSE | MSE의 제곱근. 원래 단위와 동일 | MAE보다 이상치에 민감. 단위 해석이 직관적 |
| R² (결정계수) | 모델이 데이터 변동성을 설명하는 비율 | 0~1. 1에 가까울수록 모델이 데이터를 잘 설명 |
💡 MAE vs RMSE 선택
이상치가 있을 때: MAE (제곱하지 않으므로 이상치 영향이 작음)
이상치를 크게 패널티: RMSE (큰 오차를 더 크게 처벌하고 싶을 때)
이상치가 있을 때: MAE (제곱하지 않으므로 이상치 영향이 작음)
이상치를 크게 패널티: RMSE (큰 오차를 더 크게 처벌하고 싶을 때)
4. 과적합과 과소적합
| 현상 | 증상 | 원인 | 해결 방법 |
|---|---|---|---|
| 과적합 (Overfitting) |
훈련 데이터에는 성능이 높지만 테스트 데이터에는 낮음 | 모델이 너무 복잡, 훈련 데이터 부족 | 규제(L1/L2), 드롭아웃, 데이터 증강, 조기 종료, 교차 검증 |
| 과소적합 (Underfitting) |
훈련·테스트 데이터 모두 성능이 낮음 | 모델이 너무 단순, 특성 부족 | 모델 복잡도 증가, 더 많은 특성 추가, 규제 감소 |
과적합 방지 기법
| 기법 | 설명 |
|---|---|
| 규제 (Regularization) | L1(Lasso), L2(Ridge) 패널티로 가중치를 제한 |
| 드롭아웃 (Dropout) | 학습 중 일부 뉴런을 무작위로 비활성화. 신경망 과적합 방지 |
| 조기 종료 (Early Stopping) | 검증 성능이 더 이상 개선되지 않으면 학습 중단 |
| 데이터 증강 (Data Augmentation) | 이미지 회전·반전 등으로 학습 데이터 양을 늘림 |
| 가지치기 (Pruning) | 결정 트리의 복잡한 가지를 제거 |
5. 교차 검증
데이터를 여러 번 나누어 학습·평가를 반복하는 방법입니다. 단순 훈련/테스트 분할보다 모델의 일반화 성능을 더 신뢰성 있게 측정할 수 있습니다.
| 방법 | 설명 |
|---|---|
| 홀드아웃 (Hold-out) | 데이터를 훈련/검증/테스트 세트로 단순 분리. 빠르지만 분할 방법에 따라 결과 변동 |
| K-폴드 교차 검증 | 데이터를 K개 폴드로 나누고, 각 폴드를 테스트 세트로 한 번씩 사용. K번 학습·평가 후 평균 |
| Stratified K-폴드 | 클래스 비율을 유지하며 K-폴드 분할. 클래스 불균형 데이터에 사용 |
| LOOCV (Leave-One-Out) | 데이터 한 개씩 테스트 세트로 사용. 데이터가 적을 때 유리. 계산 비용 높음 |
🎯 교차 검증 빈출 포인트
✔ "클래스 비율을 유지하며 K-폴드를 수행하는 방법은?" → Stratified K-폴드
✔ "훈련 세트, 검증 세트, 테스트 세트의 역할 차이"
→ 훈련: 모델 학습 | 검증: 하이퍼파라미터 튜닝 | 테스트: 최종 성능 평가
✔ "클래스 비율을 유지하며 K-폴드를 수행하는 방법은?" → Stratified K-폴드
✔ "훈련 세트, 검증 세트, 테스트 세트의 역할 차이"
→ 훈련: 모델 학습 | 검증: 하이퍼파라미터 튜닝 | 테스트: 최종 성능 평가
6. 데이터 시각화
분석 목적별 시각화 차트 선택
| 목적 | 적합한 차트 |
|---|---|
| 분포 확인 | 히스토그램, 박스플롯, 바이올린 플롯 |
| 비교 | 막대 차트, 그룹 막대 차트, 레이더 차트 |
| 관계·상관 | 산점도, 산점도 행렬, 히트맵 |
| 구성 비율 | 파이 차트, 도넛 차트, 누적 막대 차트 |
| 시간 흐름·추세 | 선 차트, 면적 차트 |
| 지리적 분포 | 지도, 코로플레스 맵 |
시각화 설계 원칙
| 원칙 | 설명 |
|---|---|
| 단순성 | 불필요한 요소(차트 정크) 제거. 데이터에 집중 |
| 명확성 | 제목·축 레이블·범례를 명확하게 표기 |
| 일관성 | 같은 색상은 같은 의미로 사용. 스케일 통일 |
| 적절한 차트 선택 | 데이터 유형과 분석 목적에 맞는 차트 사용 |
모델 평가 시각화
| 시각화 | 설명 |
|---|---|
| ROC 곡선 | 임계값 변화에 따른 재현율(TPR) vs 오탐률(FPR) 관계. AUC가 클수록 좋은 모델 |
| 정밀도-재현율 곡선 | 임계값 변화에 따른 정밀도-재현율 트레이드오프 시각화 |
| 학습 곡선 | 훈련 데이터와 검증 데이터의 손실·성능 변화. 과적합·과소적합 진단 |
| 잔차 플롯 | 회귀 모델에서 예측값 대비 잔차 분포. 패턴 없이 무작위여야 좋은 모델 |
| 변수 중요도 | 랜덤 포레스트 등에서 각 특성이 예측에 기여하는 정도를 막대 차트로 표현 |
📚 4과목 고득점 전략
① 분류 평가 지표 5가지(정확도·정밀도·재현율·F1·AUC) 공식을 반드시 암기하세요. 혼동 행렬(TP/FP/FN/TN)에서 각 지표를 유도할 수 있어야 합니다.
② 정밀도와 재현율 중 어느 것이 중요한 상황인지 예시와 함께 외우세요. "암 진단=재현율 중요", "스팸 필터=정밀도 중요"처럼 실생활 예와 연결하면 기억하기 쉽습니다.
③ 회귀 평가 지표(MAE·MSE·RMSE·R²)의 공식과 이상치에 대한 민감도 차이를 정리하세요.
④ 과적합·과소적합의 증상과 해결 방법 표를 외워두면 반드시 점수가 납니다.
① 분류 평가 지표 5가지(정확도·정밀도·재현율·F1·AUC) 공식을 반드시 암기하세요. 혼동 행렬(TP/FP/FN/TN)에서 각 지표를 유도할 수 있어야 합니다.
② 정밀도와 재현율 중 어느 것이 중요한 상황인지 예시와 함께 외우세요. "암 진단=재현율 중요", "스팸 필터=정밀도 중요"처럼 실생활 예와 연결하면 기억하기 쉽습니다.
③ 회귀 평가 지표(MAE·MSE·RMSE·R²)의 공식과 이상치에 대한 민감도 차이를 정리하세요.
④ 과적합·과소적합의 증상과 해결 방법 표를 외워두면 반드시 점수가 납니다.