빅데이터 분석기사 필기 3과목 빅데이터 모델링은 머신러닝 알고리즘의 원리와 특성을 다룹니다. 4과목 중 가장 어렵게 느껴지는 과목이지만, 각 알고리즘의 "어떤 문제에 쓰는가"와 "핵심 특징"을 정리하면 충분히 합격 점수를 얻을 수 있습니다.
1. 머신러닝 분류 체계
| 분류 | 정의 | 대표 알고리즘 |
|---|---|---|
| 지도학습 (Supervised) |
정답(레이블)이 있는 데이터로 학습. 입력-출력 관계를 학습 | 선형회귀, 로지스틱 회귀, 결정 트리, SVM, KNN, 나이브 베이즈, 신경망 |
| 비지도학습 (Unsupervised) |
정답 없이 데이터의 패턴·구조를 스스로 발견 | K-Means, DBSCAN, 계층적 군집, Apriori(연관규칙), PCA |
| 강화학습 (Reinforcement) |
환경과 상호작용하며 보상을 최대화하는 행동을 학습 | Q-Learning, DQN, AlphaGo |
🎯 지도 vs 비지도 구분 핵심
✔ 지도학습: 레이블(정답) 있음 → 회귀(연속값 예측), 분류(범주 예측)
✔ 비지도학습: 레이블 없음 → 군집(그룹화), 연관(패턴 발견), 차원 축소
✔ 지도학습: 레이블(정답) 있음 → 회귀(연속값 예측), 분류(범주 예측)
✔ 비지도학습: 레이블 없음 → 군집(그룹화), 연관(패턴 발견), 차원 축소
2. 지도학습 — 회귀 알고리즘
| 알고리즘 | 핵심 개념 | 특징 |
|---|---|---|
| 선형 회귀 (Linear Regression) |
독립변수와 종속변수 간 선형 관계를 학습. 최소제곱법으로 최적 직선 도출 | 해석 쉬움. 선형 관계 가정. 이상치에 민감 |
| 릿지 회귀 (Ridge) | 선형 회귀 + L2 규제(가중치 제곱합 패널티). 다중공선성 문제 완화 | 계수를 0에 가깝게 축소. 특성 제거 없음 |
| 라쏘 회귀 (Lasso) | 선형 회귀 + L1 규제(가중치 절댓값 합 패널티). 변수 선택 기능 | 일부 계수를 정확히 0으로 만들어 변수 선택 |
| 엘라스틱넷 (ElasticNet) |
Ridge(L2) + Lasso(L1) 규제를 동시에 적용 | Ridge와 Lasso의 장점을 결합 |
💡 규제(Regularization) 목적
규제는 모델이 과적합(Overfitting)되는 것을 방지합니다.
L1(Lasso): 일부 변수를 완전히 제거 → 희소 모델, 변수 선택 효과
L2(Ridge): 모든 변수의 계수를 줄임 → 안정적, 다중공선성 완화
규제는 모델이 과적합(Overfitting)되는 것을 방지합니다.
L1(Lasso): 일부 변수를 완전히 제거 → 희소 모델, 변수 선택 효과
L2(Ridge): 모든 변수의 계수를 줄임 → 안정적, 다중공선성 완화
3. 지도학습 — 분류 알고리즘
로지스틱 회귀
분류 · 확률 기반
이름은 회귀지만 분류 알고리즘. 시그모이드 함수로 0~1 확률 출력. 이진 분류에 주로 사용
결정 트리 (Decision Tree)
분류·회귀 · 트리 기반
조건을 트리 형태로 분기하며 분류. 해석 쉬움. 과적합 발생 쉬움. 가지치기(Pruning)로 조절
K-최근접 이웃 (KNN)
분류·회귀 · 인스턴스 기반
새 데이터 포인트와 가장 가까운 K개 이웃의 다수결로 분류. K값 선택이 중요. 학습 비용 없음
서포트 벡터 머신 (SVM)
분류·회귀 · 마진 기반
클래스를 최대 마진으로 분리하는 초평면 학습. 커널 트릭으로 비선형 분류 가능
나이브 베이즈
분류 · 확률 기반
베이즈 정리 기반. 변수 간 독립 가정. 텍스트 분류(스팸 필터)에 효과적. 빠르고 단순
랜덤 포레스트
분류·회귀 · 앙상블
여러 결정 트리의 예측을 다수결로 결합. 과적합 방지. 변수 중요도 계산 가능
4. 비지도학습 — 군집·연관분석
군집 분석 (Clustering)
| 알고리즘 | 방식 | 특징 |
|---|---|---|
| K-Means | K개의 중심(센트로이드)을 반복 업데이트하며 군집 형성 | K 사전 지정 필요. 구형 군집에 적합. 이상치에 민감 |
| 계층적 군집 (Hierarchical) |
거리가 가까운 데이터를 순서대로 병합(병합 방식) 또는 분할(분할 방식) | K 사전 지정 불필요. 덴드로그램으로 시각화. 대용량에 느림 |
| DBSCAN | 밀도 기반 군집. 밀도가 높은 영역을 군집으로 인식 | K 사전 지정 불필요. 비구형 군집 가능. 이상치를 노이즈로 분류 |
🎯 군집 알고리즘 선택 기준
✔ 군집 수를 미리 알 수 없음 → 계층적 군집 또는 DBSCAN
✔ 이상치를 자동으로 처리하고 싶음 → DBSCAN
✔ 빠르고 단순한 군집이 필요 → K-Means
✔ 군집 수를 미리 알 수 없음 → 계층적 군집 또는 DBSCAN
✔ 이상치를 자동으로 처리하고 싶음 → DBSCAN
✔ 빠르고 단순한 군집이 필요 → K-Means
연관 분석 (Association Analysis)
데이터에서 함께 자주 발생하는 항목 간의 규칙을 발견합니다. 장바구니 분석이 대표 예입니다.
| 지표 | 공식 | 의미 |
|---|---|---|
| 지지도 (Support) | P(A ∩ B) = A와 B가 함께 등장하는 거래 수 / 전체 거래 수 | 규칙이 전체 데이터에서 얼마나 자주 등장하는가 |
| 신뢰도 (Confidence) | P(B|A) = A와 B가 함께 등장 / A가 등장하는 거래 수 | A를 구매한 경우 B도 구매할 확률 |
| 향상도 (Lift) | 신뢰도 / P(B) | 1보다 크면 양의 연관, 1이면 독립, 1보다 작으면 음의 연관 |
💡 Apriori 알고리즘
연관 규칙 마이닝의 대표 알고리즘. 최소 지지도·신뢰도 기준을 설정하고 그것을 만족하는 항목 집합만 탐색합니다.
핵심 원리: 빈발 항목 집합의 부분 집합은 반드시 빈발합니다 (Apriori 속성)
연관 규칙 마이닝의 대표 알고리즘. 최소 지지도·신뢰도 기준을 설정하고 그것을 만족하는 항목 집합만 탐색합니다.
핵심 원리: 빈발 항목 집합의 부분 집합은 반드시 빈발합니다 (Apriori 속성)
차원 축소 (Dimensionality Reduction)
| 기법 | 설명 |
|---|---|
| PCA (주성분 분석) | 데이터의 분산을 최대한 보존하는 새로운 축(주성분)으로 변환하여 차원 축소. 선형 기법 |
| t-SNE | 고차원 데이터를 2~3차원으로 시각화. 비선형 기법. 군집 구조 시각화에 효과적 |
5. 앙상블 학습
여러 모델의 예측을 결합하여 단일 모델보다 더 좋은 성능을 내는 방법입니다.
| 방법 | 설명 | 대표 알고리즘 |
|---|---|---|
| 배깅 (Bagging) | 훈련 데이터를 무작위 복원 샘플링하여 여러 모델 학습 후 다수결/평균으로 결합. 분산 감소 | 랜덤 포레스트 |
| 부스팅 (Boosting) | 이전 모델이 틀린 데이터에 더 가중치를 두어 순차적으로 모델 학습. 편향 감소 | AdaBoost, GBM, XGBoost, LightGBM |
| 스태킹 (Stacking) | 여러 모델의 예측을 입력으로 받는 메타 모델로 최종 예측. 가장 복잡 | 다양한 모델 조합 |
🎯 앙상블 빈출 포인트
✔ "병렬로 여러 모델을 학습하는 앙상블 방법은?" → 배깅 (Bagging)
✔ "순차적으로 이전 모델의 오류를 보완하는 앙상블은?" → 부스팅 (Boosting)
✔ "배깅의 대표 알고리즘은?" → 랜덤 포레스트
✔ "부스팅의 대표 알고리즘은?" → XGBoost, LightGBM
✔ "병렬로 여러 모델을 학습하는 앙상블 방법은?" → 배깅 (Bagging)
✔ "순차적으로 이전 모델의 오류를 보완하는 앙상블은?" → 부스팅 (Boosting)
✔ "배깅의 대표 알고리즘은?" → 랜덤 포레스트
✔ "부스팅의 대표 알고리즘은?" → XGBoost, LightGBM
6. 딥러닝 기초 개념
| 개념 | 설명 |
|---|---|
| 인공 신경망 (ANN) | 인간 뇌의 뉴런을 모방한 모델. 입력층·은닉층·출력층으로 구성 |
| 활성화 함수 | 뉴런의 출력을 결정하는 함수. ReLU(주로 사용), Sigmoid, Tanh |
| 역전파 (Backpropagation) | 출력 오류를 역방향으로 전파하며 가중치를 업데이트. 경사하강법 사용 |
| CNN (합성곱 신경망) | 이미지 인식에 특화. 합성곱·풀링 레이어로 특징 추출 |
| RNN (순환 신경망) | 순차 데이터(시계열, 텍스트) 처리에 특화. 이전 상태를 기억 |
| LSTM | RNN의 장기 의존성 문제(기울기 소실) 개선. 게이트 구조로 정보 선택적 기억 |
💡 딥러닝 모델 선택 가이드
이미지 분류·인식 → CNN
텍스트·시계열·음성 → RNN, LSTM, Transformer
일반 분류·회귀 → MLP(다층 퍼셉트론)
이미지 분류·인식 → CNN
텍스트·시계열·음성 → RNN, LSTM, Transformer
일반 분류·회귀 → MLP(다층 퍼셉트론)
📚 3과목 고득점 전략
① 지도학습(회귀·분류)과 비지도학습(군집·연관)을 먼저 구분하고, 각 범주의 대표 알고리즘을 정리하세요.
② 각 알고리즘의 "어떤 문제에 쓰는가"와 "핵심 특징 1~2가지"를 키워드로 암기하세요. 전체 수식을 외울 필요는 없습니다.
③ 앙상블의 배깅 vs 부스팅 차이(병렬 vs 순차)는 자주 출제됩니다.
④ 연관 분석의 지지도·신뢰도·향상도 공식과 의미를 암기하세요. 계산 문제로도 나옵니다.
① 지도학습(회귀·분류)과 비지도학습(군집·연관)을 먼저 구분하고, 각 범주의 대표 알고리즘을 정리하세요.
② 각 알고리즘의 "어떤 문제에 쓰는가"와 "핵심 특징 1~2가지"를 키워드로 암기하세요. 전체 수식을 외울 필요는 없습니다.
③ 앙상블의 배깅 vs 부스팅 차이(병렬 vs 순차)는 자주 출제됩니다.
④ 연관 분석의 지지도·신뢰도·향상도 공식과 의미를 암기하세요. 계산 문제로도 나옵니다.