빅데이터 분석기사 필기 2과목 빅데이터 탐색은 데이터 전처리, 탐색적 데이터 분석(EDA), 통계 기법을 다룹니다. 1과목보다 통계 개념이 들어와서 어렵게 느껴지지만, 각 기법의 목적과 공식을 이해하면 충분히 고득점이 가능합니다.

1. 데이터 전처리

전처리는 분석 전에 데이터를 깨끗하고 분석하기 좋은 형태로 만드는 과정입니다. 전처리의 품질이 분석 결과 품질을 결정한다고 해도 과언이 아닙니다.

결측치 처리

처리 방법설명적합한 경우
삭제결측치가 있는 행(또는 열) 제거결측 비율이 낮을 때 (5% 미만)
평균값 대체해당 변수의 평균으로 대체정규분포에 가까운 수치형 변수
중앙값 대체해당 변수의 중앙값으로 대체이상치가 있어 평균이 왜곡된 경우
최빈값 대체가장 자주 나타나는 값으로 대체범주형 변수
예측 모델로 대체다른 변수를 이용해 결측값을 예측결측 패턴이 다른 변수와 관련있을 때

이상치(Outlier) 탐지 및 처리

탐지 방법설명
IQR (사분위 범위)Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과인 값을 이상치로 판단. 박스플롯에서 확인
Z-Score평균으로부터 표준편차 3배 이상 벗어난 값을 이상치로 판단 (|Z| > 3)
시각화박스플롯, 산점도 등으로 육안 확인
IQR = Q3 - Q1
이상치 범위: [Q1 - 1.5×IQR, Q3 + 1.5×IQR] 밖의 값

Z-Score = (x - μ) / σ (μ: 평균, σ: 표준편차)
🎯 이상치 처리 방법
✔ 제거: 이상치가 오류로 인한 것이 확실할 때
✔ 대체: 평균·중앙값으로 교체
✔ 변환: 로그 변환 등으로 영향을 줄임
✔ 유지: 이상치 자체가 중요한 정보인 경우 (사기 탐지)

2. 정규화와 표준화

변수들의 단위와 범위가 다를 때 분석 결과가 왜곡되지 않도록 스케일을 조정하는 작업입니다.

기법공식결과 범위특징
최소-최대 정규화
(Min-Max Normalization)
(x - min) / (max - min) [0, 1] 이상치에 민감. 범위가 명확할 때 유리
Z-Score 표준화
(Standardization)
(x - μ) / σ 평균 0, 분산 1 정규분포 가정. 이상치 영향을 줄임
로그 변환 log(x) -∞ ~ ∞ 왜도가 큰 데이터를 정규분포에 가깝게
💡 정규화 vs 표준화 선택 기준
정규화(Min-Max): 데이터의 분포를 모르거나 신경망 입력값에 적합
표준화(Z-Score): 이상치가 있거나 정규분포를 가정하는 알고리즘(SVM, 선형회귀)에 적합

3. 탐색적 데이터 분석 (EDA)

EDA(Exploratory Data Analysis)는 데이터를 분석하기 전에 그래프와 통계량으로 데이터의 특성, 분포, 변수 간 관계를 파악하는 과정입니다.

EDA에서 사용하는 시각화 차트

차트용도
히스토그램수치형 변수의 분포(빈도) 확인. 정규분포 여부 파악
박스플롯 (Box Plot)중앙값·사분위수·이상치를 한눈에 파악
산점도 (Scatter Plot)두 수치형 변수 간 관계(상관) 시각화
막대 차트범주형 변수의 빈도 비교
히트맵 (Heatmap)여러 변수 간 상관관계를 색상으로 표현
페어플롯 (Pair Plot)여러 변수 간 모든 조합의 산점도를 한 번에 표시

변수 유형에 따른 EDA 접근

변수 유형확인 항목
수치형 변수평균, 중앙값, 표준편차, 왜도, 첨도, 이상치 여부, 분포 모양
범주형 변수빈도수, 최빈값, 클래스 불균형 여부
시계열 데이터추세(Trend), 계절성(Seasonality), 주기성, 불규칙 변동

4. 기술통계와 추론통계

기술통계 (Descriptive Statistics)

통계량설명
평균 (Mean)모든 값의 합 ÷ 데이터 수. 이상치에 민감
중앙값 (Median)정렬 후 가운데 값. 이상치에 강건(Robust)
최빈값 (Mode)가장 자주 나타나는 값. 범주형 데이터에 주로 사용
분산 (Variance)평균으로부터 각 값의 편차 제곱의 평균. 퍼진 정도
표준편차 (Std Dev)분산의 제곱근. 단위가 원래 데이터와 동일
왜도 (Skewness)분포의 비대칭 정도. 양수=오른쪽 꼬리, 음수=왼쪽 꼬리
첨도 (Kurtosis)분포의 뾰족한 정도. 정규분포 기준값=3 (초과 첨도=0)

확률분포

분포특징예시
정규분포평균을 중심으로 좌우 대칭인 종 모양. 평균·분산으로 결정키, 몸무게, 측정 오차
이항분포n번 시행에서 성공 횟수의 분포. 성공 확률 p 고정동전 던지기, 불량품 수
포아송 분포단위 시간·공간에서 사건 발생 횟수의 분포시간당 방문자 수, 교통사고 발생 수
균등분포모든 구간에서 동일한 확률. 최소·최대값으로 결정난수 생성, 로또 당첨 번호

5. 가설검정

가설검정은 표본 데이터를 바탕으로 모집단에 대한 가설이 옳은지 통계적으로 판단하는 방법입니다.

용어설명
귀무가설 (H₀)검정의 대상이 되는 기본 가설. "차이가 없다", "효과가 없다" 형태
대립가설 (H₁)귀무가설이 기각될 때 채택되는 가설. 연구자가 증명하려는 것
유의수준 (α)귀무가설이 참인데 기각할 확률의 허용 한계. 보통 0.05 (5%) 사용
p-value귀무가설이 참일 때 관측 결과 이상의 극단값이 나올 확률
기각 조건p-value < α이면 귀무가설 기각 → 대립가설 채택

주요 통계 검정 방법

검정 방법사용 상황
t-검정두 집단의 평균 비교. 독립표본 t-검정, 대응표본 t-검정
ANOVA (분산 분석)세 집단 이상의 평균 비교. t-검정의 확장
카이제곱 검정범주형 변수 간의 독립성 검정 (두 범주형 변수가 관련이 있는지)
F-검정두 집단의 분산 비교
🎯 가설검정 빈출 포인트
✔ "p-value < 0.05이면?" → 귀무가설 기각 (통계적으로 유의미한 차이 있음)
✔ "두 범주형 변수의 독립성을 검정하는 방법은?" → 카이제곱 검정
✔ "세 집단 이상의 평균 차이를 검정하는 방법은?" → ANOVA

6. 상관분석과 회귀분석

상관분석

두 변수 사이의 선형적 관계의 강도와 방향을 측정합니다.

상관계수 (r)의미
r = 1완전한 양의 선형 관계
0.7 ≤ r < 1강한 양의 상관관계
0.3 ≤ r < 0.7중간 양의 상관관계
r = 0선형 관계 없음
-0.7 < r ≤ -0.3중간 음의 상관관계
r = -1완전한 음의 선형 관계
💡 상관관계 ≠ 인과관계
상관계수가 높다고 해서 인과관계가 있는 것은 아닙니다.
예: 아이스크림 판매량과 익사 사고 건수는 높은 양의 상관이 있지만, 인과관계는 없어요. 둘 다 여름 기온이라는 공통 원인(공변인)의 영향을 받을 뿐입니다.

단순 선형 회귀분석

하나의 독립변수(X)로 종속변수(Y)를 예측하는 선형 모델입니다.

Y = β₀ + β₁X + ε

Y: 종속변수 (예측값)
X: 독립변수
β₀: 절편 (X=0일 때 Y의 값)
β₁: 기울기 (X가 1 증가할 때 Y의 변화량)
ε: 오차항
개념설명
결정계수 R²모델이 데이터의 변동성을 설명하는 비율. 0~1 사이, 1에 가까울수록 좋음
잔차 (Residual)실제값 - 예측값. 잔차가 작을수록 좋은 모델
다중공선성독립변수들 간에 강한 상관관계가 있을 때 발생. 회귀 계수 해석 어려워짐
📚 2과목 고득점 전략

① 결측치·이상치 처리 방법과 각 방법이 적합한 상황을 정리하세요. "이상치가 있으면 중앙값 대체"처럼 조건과 방법을 짝지어 외우면 됩니다.

② 정규화(Min-Max)와 표준화(Z-Score) 공식을 암기하고 차이를 명확히 구분하세요.

③ p-value와 유의수준의 관계는 매 회차 출제 수준입니다. "p < α이면 귀무가설 기각"을 반드시 암기하세요.

④ 상관계수의 범위(-1~1)와 해석(양의 상관·음의 상관·무상관)을 숙지하고, 상관관계와 인과관계의 차이를 명확히 이해하세요.