빅데이터 분석기사 필기 3과목 빅데이터 모델링은 머신러닝 알고리즘의 원리와 특성을 다룹니다. 4과목 중 가장 어렵게 느껴지는 과목이지만, 각 알고리즘의 "어떤 문제에 쓰는가"와 "핵심 특징"을 정리하면 충분히 합격 점수를 얻을 수 있습니다.

1. 머신러닝 분류 체계

분류정의대표 알고리즘
지도학습
(Supervised)
정답(레이블)이 있는 데이터로 학습. 입력-출력 관계를 학습 선형회귀, 로지스틱 회귀, 결정 트리, SVM, KNN, 나이브 베이즈, 신경망
비지도학습
(Unsupervised)
정답 없이 데이터의 패턴·구조를 스스로 발견 K-Means, DBSCAN, 계층적 군집, Apriori(연관규칙), PCA
강화학습
(Reinforcement)
환경과 상호작용하며 보상을 최대화하는 행동을 학습 Q-Learning, DQN, AlphaGo
🎯 지도 vs 비지도 구분 핵심
지도학습: 레이블(정답) 있음 → 회귀(연속값 예측), 분류(범주 예측)
비지도학습: 레이블 없음 → 군집(그룹화), 연관(패턴 발견), 차원 축소

2. 지도학습 — 회귀 알고리즘

알고리즘핵심 개념특징
선형 회귀
(Linear Regression)
독립변수와 종속변수 간 선형 관계를 학습. 최소제곱법으로 최적 직선 도출 해석 쉬움. 선형 관계 가정. 이상치에 민감
릿지 회귀 (Ridge) 선형 회귀 + L2 규제(가중치 제곱합 패널티). 다중공선성 문제 완화 계수를 0에 가깝게 축소. 특성 제거 없음
라쏘 회귀 (Lasso) 선형 회귀 + L1 규제(가중치 절댓값 합 패널티). 변수 선택 기능 일부 계수를 정확히 0으로 만들어 변수 선택
엘라스틱넷
(ElasticNet)
Ridge(L2) + Lasso(L1) 규제를 동시에 적용 Ridge와 Lasso의 장점을 결합
💡 규제(Regularization) 목적
규제는 모델이 과적합(Overfitting)되는 것을 방지합니다.
L1(Lasso): 일부 변수를 완전히 제거 → 희소 모델, 변수 선택 효과
L2(Ridge): 모든 변수의 계수를 줄임 → 안정적, 다중공선성 완화

3. 지도학습 — 분류 알고리즘

로지스틱 회귀
분류 · 확률 기반
이름은 회귀지만 분류 알고리즘. 시그모이드 함수로 0~1 확률 출력. 이진 분류에 주로 사용
결정 트리 (Decision Tree)
분류·회귀 · 트리 기반
조건을 트리 형태로 분기하며 분류. 해석 쉬움. 과적합 발생 쉬움. 가지치기(Pruning)로 조절
K-최근접 이웃 (KNN)
분류·회귀 · 인스턴스 기반
새 데이터 포인트와 가장 가까운 K개 이웃의 다수결로 분류. K값 선택이 중요. 학습 비용 없음
서포트 벡터 머신 (SVM)
분류·회귀 · 마진 기반
클래스를 최대 마진으로 분리하는 초평면 학습. 커널 트릭으로 비선형 분류 가능
나이브 베이즈
분류 · 확률 기반
베이즈 정리 기반. 변수 간 독립 가정. 텍스트 분류(스팸 필터)에 효과적. 빠르고 단순
랜덤 포레스트
분류·회귀 · 앙상블
여러 결정 트리의 예측을 다수결로 결합. 과적합 방지. 변수 중요도 계산 가능

4. 비지도학습 — 군집·연관분석

군집 분석 (Clustering)

알고리즘방식특징
K-Means K개의 중심(센트로이드)을 반복 업데이트하며 군집 형성 K 사전 지정 필요. 구형 군집에 적합. 이상치에 민감
계층적 군집
(Hierarchical)
거리가 가까운 데이터를 순서대로 병합(병합 방식) 또는 분할(분할 방식) K 사전 지정 불필요. 덴드로그램으로 시각화. 대용량에 느림
DBSCAN 밀도 기반 군집. 밀도가 높은 영역을 군집으로 인식 K 사전 지정 불필요. 비구형 군집 가능. 이상치를 노이즈로 분류
🎯 군집 알고리즘 선택 기준
✔ 군집 수를 미리 알 수 없음 → 계층적 군집 또는 DBSCAN
✔ 이상치를 자동으로 처리하고 싶음 → DBSCAN
✔ 빠르고 단순한 군집이 필요 → K-Means

연관 분석 (Association Analysis)

데이터에서 함께 자주 발생하는 항목 간의 규칙을 발견합니다. 장바구니 분석이 대표 예입니다.

지표공식의미
지지도 (Support) P(A ∩ B) = A와 B가 함께 등장하는 거래 수 / 전체 거래 수 규칙이 전체 데이터에서 얼마나 자주 등장하는가
신뢰도 (Confidence) P(B|A) = A와 B가 함께 등장 / A가 등장하는 거래 수 A를 구매한 경우 B도 구매할 확률
향상도 (Lift) 신뢰도 / P(B) 1보다 크면 양의 연관, 1이면 독립, 1보다 작으면 음의 연관
💡 Apriori 알고리즘
연관 규칙 마이닝의 대표 알고리즘. 최소 지지도·신뢰도 기준을 설정하고 그것을 만족하는 항목 집합만 탐색합니다.
핵심 원리: 빈발 항목 집합의 부분 집합은 반드시 빈발합니다 (Apriori 속성)

차원 축소 (Dimensionality Reduction)

기법설명
PCA (주성분 분석) 데이터의 분산을 최대한 보존하는 새로운 축(주성분)으로 변환하여 차원 축소. 선형 기법
t-SNE 고차원 데이터를 2~3차원으로 시각화. 비선형 기법. 군집 구조 시각화에 효과적

5. 앙상블 학습

여러 모델의 예측을 결합하여 단일 모델보다 더 좋은 성능을 내는 방법입니다.

방법설명대표 알고리즘
배깅 (Bagging) 훈련 데이터를 무작위 복원 샘플링하여 여러 모델 학습 후 다수결/평균으로 결합. 분산 감소 랜덤 포레스트
부스팅 (Boosting) 이전 모델이 틀린 데이터에 더 가중치를 두어 순차적으로 모델 학습. 편향 감소 AdaBoost, GBM, XGBoost, LightGBM
스태킹 (Stacking) 여러 모델의 예측을 입력으로 받는 메타 모델로 최종 예측. 가장 복잡 다양한 모델 조합
🎯 앙상블 빈출 포인트
✔ "병렬로 여러 모델을 학습하는 앙상블 방법은?" → 배깅 (Bagging)
✔ "순차적으로 이전 모델의 오류를 보완하는 앙상블은?" → 부스팅 (Boosting)
✔ "배깅의 대표 알고리즘은?" → 랜덤 포레스트
✔ "부스팅의 대표 알고리즘은?" → XGBoost, LightGBM

6. 딥러닝 기초 개념

개념설명
인공 신경망 (ANN)인간 뇌의 뉴런을 모방한 모델. 입력층·은닉층·출력층으로 구성
활성화 함수뉴런의 출력을 결정하는 함수. ReLU(주로 사용), Sigmoid, Tanh
역전파 (Backpropagation)출력 오류를 역방향으로 전파하며 가중치를 업데이트. 경사하강법 사용
CNN (합성곱 신경망)이미지 인식에 특화. 합성곱·풀링 레이어로 특징 추출
RNN (순환 신경망)순차 데이터(시계열, 텍스트) 처리에 특화. 이전 상태를 기억
LSTMRNN의 장기 의존성 문제(기울기 소실) 개선. 게이트 구조로 정보 선택적 기억
💡 딥러닝 모델 선택 가이드
이미지 분류·인식 → CNN
텍스트·시계열·음성 → RNN, LSTM, Transformer
일반 분류·회귀 → MLP(다층 퍼셉트론)
📚 3과목 고득점 전략

① 지도학습(회귀·분류)과 비지도학습(군집·연관)을 먼저 구분하고, 각 범주의 대표 알고리즘을 정리하세요.

② 각 알고리즘의 "어떤 문제에 쓰는가"와 "핵심 특징 1~2가지"를 키워드로 암기하세요. 전체 수식을 외울 필요는 없습니다.

③ 앙상블의 배깅 vs 부스팅 차이(병렬 vs 순차)는 자주 출제됩니다.

④ 연관 분석의 지지도·신뢰도·향상도 공식과 의미를 암기하세요. 계산 문제로도 나옵니다.