빅데이터 분석기사 필기 1과목 빅데이터 분석 기획은 빅데이터의 개념·특성·기술 생태계와 분석 방법론·계획을 다룹니다. 암기 비중이 높고 기술 용어가 많지만 출제 패턴이 일정해서 정리만 잘 되어 있으면 고득점이 가능합니다.

1. 빅데이터의 이해 — 3V와 5V

빅데이터 3V (기본 특성)

Volume
규모
데이터의 양이 기존과 비교할 수 없을 만큼 방대함. TB·PB 단위
Variety
다양성
정형·반정형·비정형 데이터가 혼재. 텍스트·영상·음성·로그 등
Velocity
속도
데이터가 생성·수집·처리되는 속도가 매우 빠름. 실시간 처리 요구

빅데이터 5V (확장 특성)

특성설명
Volume (규모)방대한 데이터 양
Variety (다양성)정형·비정형 등 다양한 데이터 유형
Velocity (속도)빠른 생성 및 처리 속도
Veracity (정확성)데이터의 신뢰성·정확성. 노이즈와 불확실성 관리
Value (가치)데이터에서 추출하는 비즈니스 가치
🎯 빈출 포인트
✔ "빅데이터의 기본 3가지 특성은?" → Volume·Variety·Velocity
✔ "빅데이터의 5V 중 데이터의 신뢰성과 관련된 특성은?" → Veracity
✔ 데이터 유형: 정형(DB 테이블), 반정형(JSON·XML·HTML), 비정형(텍스트·영상·음성)

데이터 유형 분류

유형특징예시
정형 데이터행과 열로 구성된 스키마 고정 데이터. SQL로 처리관계형 DB, 엑셀, CSV
반정형 데이터스키마가 있지만 유연함. 태그·마커로 구조 표현JSON, XML, HTML, 로그 파일
비정형 데이터정해진 형식 없음. 전체 데이터의 약 80% 차지SNS 텍스트, 이미지, 동영상, 음성

2. 데이터 분석 방법론

KDD (Knowledge Discovery in Databases)

데이터베이스에서 지식을 발견하는 과정입니다. 순서를 외우는 것이 핵심입니다.

단계활동
① 선택 (Selection)분석 목적에 맞는 데이터를 원본 데이터에서 선택
② 전처리 (Preprocessing)결측치·이상치 처리, 노이즈 제거
③ 변환 (Transformation)분석에 적합한 형태로 데이터 변환·통합
④ 데이터 마이닝 (Data Mining)알고리즘 적용으로 패턴·규칙·모델 발견
⑤ 해석·평가 (Interpretation/Evaluation)발견된 패턴을 평가하고 지식으로 표현

CRISP-DM (Cross Industry Standard Process for Data Mining)

산업 표준 데이터 마이닝 프로세스입니다. KDD보다 실무적인 관점의 방법론이에요.

단계활동
① 업무 이해 (Business Understanding)비즈니스 목표 파악, 분석 목표 정의
② 데이터 이해 (Data Understanding)데이터 수집, 탐색적 분석, 품질 평가
③ 데이터 준비 (Data Preparation)전처리, 변수 선택, 데이터 변환
④ 모델링 (Modeling)분석 기법 선택, 모델 학습
⑤ 평가 (Evaluation)모델 성능 평가, 업무 목표 충족 여부 확인
⑥ 전개 (Deployment)모델 배포, 모니터링, 최종 보고
🎯 KDD vs CRISP-DM 빈출 포인트
✔ KDD 5단계: 선택→전처리→변환→데이터마이닝→해석·평가
✔ CRISP-DM 6단계: 업무이해→데이터이해→데이터준비→모델링→평가→전개
✔ CRISP-DM의 특징: 단계 간 피드백 루프 존재. 비선형적 반복 가능

분석 방법 — 목적에 따른 분류

분류목적예시
기술 분석 (Descriptive)과거 데이터를 요약·기술. "무슨 일이 있었나?"매출 현황 리포트, 평균·분산 계산
진단 분석 (Diagnostic)원인 파악. "왜 그런 일이 있었나?"매출 감소 원인 분석
예측 분석 (Predictive)미래 예측. "앞으로 어떻게 될 것인가?"이탈 고객 예측, 수요 예측
처방 분석 (Prescriptive)최적 행동 제안. "어떻게 해야 하나?"추천 시스템, 최적화 알고리즘

3. 데이터 수집·저장 기술

데이터 수집 방식

방식설명
크롤링 (Crawling)웹 페이지를 자동으로 탐색하며 데이터 수집. 구조화되지 않은 웹 데이터 수집
API 수집공개 API(SNS, 공공 데이터 등)를 통해 정형화된 데이터 수집. JSON 형태
로그 수집서버·애플리케이션의 로그 파일을 실시간으로 수집. Fluentd, Logstash
스트리밍 수집실시간 데이터를 연속으로 수집·처리. Apache Kafka, Spark Streaming

NoSQL 데이터베이스

빅데이터 저장에 특화된 비관계형 데이터베이스입니다. 스키마가 유연하고 수평 확장이 용이해요.

유형특징대표 제품
Key-Value 저장소키-값 쌍으로 저장. 단순하고 빠름. 캐싱에 적합Redis, DynamoDB
문서형 DBJSON·BSON 형태의 문서 저장. 유연한 스키마MongoDB, CouchDB
컬럼형 DB컬럼 단위로 데이터 저장. 대용량 분석에 최적화HBase, Cassandra
그래프 DB노드-엣지 구조. 관계 중심 데이터에 최적Neo4j

4. 빅데이터 처리 인프라

하둡 (Hadoop) 에코시스템

구성 요소역할
HDFS (Hadoop Distributed File System)대용량 파일을 블록 단위로 분산 저장. 복제(기본 3개)로 내고장성 보장
MapReduce분산 처리 프레임워크. Map(분류)→Shuffle→Reduce(집계) 단계
YARN클러스터 자원 관리 및 작업 스케줄링. Hadoop 2.0부터 도입
HiveSQL과 유사한 HiveQL로 HDFS 데이터를 쿼리. 배치 분석
HBaseHDFS 위에 구축된 컬럼형 NoSQL DB. 실시간 읽기·쓰기
Sqoop관계형 DB와 Hadoop 간 데이터 전송 도구
Flume로그 데이터를 실시간으로 수집해 HDFS에 저장

Apache Spark

Hadoop MapReduce의 단점(디스크 I/O 빈번)을 개선한 인메모리(In-Memory) 분산 처리 프레임워크입니다.

특징내용
처리 속도메모리 내 처리로 Hadoop MapReduce 대비 최대 100배 빠름
핵심 구조RDD(Resilient Distributed Dataset) — 불변·분산 데이터 컬렉션
언어 지원Scala(기본), Python(PySpark), Java, R
구성 요소Spark SQL, Spark Streaming, MLlib(머신러닝), GraphX
처리 방식배치 처리 + 실시간 스트리밍 모두 지원
🎯 하둡 vs 스파크 빈출 비교
✔ 하둡: 디스크 기반, MapReduce, 배치 처리 중심
✔ 스파크: 메모리 기반, RDD, 배치+실시간 모두 처리
✔ "하둡보다 최대 100배 빠른 인메모리 분산 처리 프레임워크는?" → Apache Spark

데이터 웨어하우스 vs 데이터 레이크

항목데이터 웨어하우스데이터 레이크
데이터 형태정형 데이터 (정제·구조화)원시 데이터 (정형·비정형 모두)
스키마저장 전 스키마 정의 (Schema-on-Write)조회 시 스키마 정의 (Schema-on-Read)
비용높음낮음 (저렴한 스토리지)
사용자비즈니스 분석가데이터 과학자, 엔지니어
대표 예Oracle DW, AWS RedshiftAWS S3, Azure Data Lake

5. 데이터 거버넌스

데이터 거버넌스는 조직 내 데이터를 체계적으로 관리·활용하기 위한 원칙·정책·프로세스의 총체입니다.

구성 요소설명
데이터 품질 관리데이터의 정확성·완전성·일관성·시의성을 확보하는 활동
메타데이터 관리데이터에 대한 데이터(데이터의 의미·출처·형식·관계 등) 관리
데이터 표준화조직 전반의 데이터 형식·용어·코드를 일관되게 정의
데이터 보안·프라이버시개인정보 보호, 접근 권한 통제, 데이터 유출 방지
💡 개인정보 비식별화 기법
가명 처리: 이름 대신 가명 사용 (홍길동 → A 씨)
총계 처리: 개인 데이터를 집계값으로 대체 (개별 급여 → 평균 급여)
데이터 마스킹: 일부 정보를 '*'으로 대체 (010-1234-***)
데이터 범주화: 정확한 값 대신 범주로 표현 (나이 35 → 30대)
📚 1과목 고득점 전략

① 빅데이터 3V와 5V는 영문 용어까지 완벽히 외우세요. Veracity(정확성)와 Value(가치)는 자주 틀리는 부분입니다.

② KDD 5단계와 CRISP-DM 6단계 순서를 각각 외우고 서로 어떻게 다른지 비교해두세요.

③ 하둡과 스파크의 핵심 차이(디스크 vs 메모리)와 구성 요소를 표로 정리해두면 관련 문제를 쉽게 풀 수 있습니다.

④ NoSQL 4가지 유형(Key-Value·문서·컬럼·그래프)과 대표 제품은 세트로 암기하세요.