빅데이터 분석기사 필기 1과목 빅데이터 분석 기획 핵심 요약 — 3V·방법론·하둡·NoSQL

빅데이터 분석기사 필기 1과목 빅데이터 분석 기획은 빅데이터의 개념·특성·기술 생태계와 분석 방법론·계획을 다룹니다. 암기 비중이 높고 기술 용어가 많지만 출제 패턴이 일정해서 정리만 잘 되어 있으면 고득점이 가능합니다.

📋 목차

빅데이터의 이해 — 3V와 5V
데이터 분석 방법론
데이터 수집·저장 기술
빅데이터 처리 인프라
데이터 거버넌스

필기 과목 → 1과목 2과목 3과목 4과목

1. 빅데이터의 이해 — 3V와 5V

빅데이터 3V (기본 특성)

Volume

규모

데이터의 양이 기존과 비교할 수 없을 만큼 방대함. TB·PB 단위

Variety

다양성

정형·반정형·비정형 데이터가 혼재. 텍스트·영상·음성·로그 등

Velocity

속도

데이터가 생성·수집·처리되는 속도가 매우 빠름. 실시간 처리 요구

빅데이터 5V (확장 특성)

특성	설명
Volume (규모)	방대한 데이터 양
Variety (다양성)	정형·비정형 등 다양한 데이터 유형
Velocity (속도)	빠른 생성 및 처리 속도
Veracity (정확성)	데이터의 신뢰성·정확성. 노이즈와 불확실성 관리
Value (가치)	데이터에서 추출하는 비즈니스 가치

🎯 빈출 포인트
✔ "빅데이터의 기본 3가지 특성은?" → Volume·Variety·Velocity
✔ "빅데이터의 5V 중 데이터의 신뢰성과 관련된 특성은?" → Veracity
✔ 데이터 유형: 정형(DB 테이블), 반정형(JSON·XML·HTML), 비정형(텍스트·영상·음성)

데이터 유형 분류

유형	특징	예시
정형 데이터	행과 열로 구성된 스키마 고정 데이터. SQL로 처리	관계형 DB, 엑셀, CSV
반정형 데이터	스키마가 있지만 유연함. 태그·마커로 구조 표현	JSON, XML, HTML, 로그 파일
비정형 데이터	정해진 형식 없음. 전체 데이터의 약 80% 차지	SNS 텍스트, 이미지, 동영상, 음성

2. 데이터 분석 방법론

KDD (Knowledge Discovery in Databases)

데이터베이스에서 지식을 발견하는 과정입니다. 순서를 외우는 것이 핵심입니다.

단계	활동
① 선택 (Selection)	분석 목적에 맞는 데이터를 원본 데이터에서 선택
② 전처리 (Preprocessing)	결측치·이상치 처리, 노이즈 제거
③ 변환 (Transformation)	분석에 적합한 형태로 데이터 변환·통합
④ 데이터 마이닝 (Data Mining)	알고리즘 적용으로 패턴·규칙·모델 발견
⑤ 해석·평가 (Interpretation/Evaluation)	발견된 패턴을 평가하고 지식으로 표현

CRISP-DM (Cross Industry Standard Process for Data Mining)

산업 표준 데이터 마이닝 프로세스입니다. KDD보다 실무적인 관점의 방법론이에요.

단계	활동
① 업무 이해 (Business Understanding)	비즈니스 목표 파악, 분석 목표 정의
② 데이터 이해 (Data Understanding)	데이터 수집, 탐색적 분석, 품질 평가
③ 데이터 준비 (Data Preparation)	전처리, 변수 선택, 데이터 변환
④ 모델링 (Modeling)	분석 기법 선택, 모델 학습
⑤ 평가 (Evaluation)	모델 성능 평가, 업무 목표 충족 여부 확인
⑥ 전개 (Deployment)	모델 배포, 모니터링, 최종 보고

🎯 KDD vs CRISP-DM 빈출 포인트
✔ KDD 5단계: 선택→전처리→변환→데이터마이닝→해석·평가
✔ CRISP-DM 6단계: 업무이해→데이터이해→데이터준비→모델링→평가→전개
✔ CRISP-DM의 특징: 단계 간 피드백 루프 존재. 비선형적 반복 가능

분석 방법 — 목적에 따른 분류

분류	목적	예시
기술 분석 (Descriptive)	과거 데이터를 요약·기술. "무슨 일이 있었나?"	매출 현황 리포트, 평균·분산 계산
진단 분석 (Diagnostic)	원인 파악. "왜 그런 일이 있었나?"	매출 감소 원인 분석
예측 분석 (Predictive)	미래 예측. "앞으로 어떻게 될 것인가?"	이탈 고객 예측, 수요 예측
처방 분석 (Prescriptive)	최적 행동 제안. "어떻게 해야 하나?"	추천 시스템, 최적화 알고리즘

3. 데이터 수집·저장 기술

데이터 수집 방식

방식	설명
크롤링 (Crawling)	웹 페이지를 자동으로 탐색하며 데이터 수집. 구조화되지 않은 웹 데이터 수집
API 수집	공개 API(SNS, 공공 데이터 등)를 통해 정형화된 데이터 수집. JSON 형태
로그 수집	서버·애플리케이션의 로그 파일을 실시간으로 수집. Fluentd, Logstash
스트리밍 수집	실시간 데이터를 연속으로 수집·처리. Apache Kafka, Spark Streaming

NoSQL 데이터베이스

빅데이터 저장에 특화된 비관계형 데이터베이스입니다. 스키마가 유연하고 수평 확장이 용이해요.

유형	특징	대표 제품
Key-Value 저장소	키-값 쌍으로 저장. 단순하고 빠름. 캐싱에 적합	Redis, DynamoDB
문서형 DB	JSON·BSON 형태의 문서 저장. 유연한 스키마	MongoDB, CouchDB
컬럼형 DB	컬럼 단위로 데이터 저장. 대용량 분석에 최적화	HBase, Cassandra
그래프 DB	노드-엣지 구조. 관계 중심 데이터에 최적	Neo4j

4. 빅데이터 처리 인프라

하둡 (Hadoop) 에코시스템

구성 요소	역할
HDFS (Hadoop Distributed File System)	대용량 파일을 블록 단위로 분산 저장. 복제(기본 3개)로 내고장성 보장
MapReduce	분산 처리 프레임워크. Map(분류)→Shuffle→Reduce(집계) 단계
YARN	클러스터 자원 관리 및 작업 스케줄링. Hadoop 2.0부터 도입
Hive	SQL과 유사한 HiveQL로 HDFS 데이터를 쿼리. 배치 분석
HBase	HDFS 위에 구축된 컬럼형 NoSQL DB. 실시간 읽기·쓰기
Sqoop	관계형 DB와 Hadoop 간 데이터 전송 도구
Flume	로그 데이터를 실시간으로 수집해 HDFS에 저장

Apache Spark

Hadoop MapReduce의 단점(디스크 I/O 빈번)을 개선한 인메모리(In-Memory) 분산 처리 프레임워크입니다.

특징	내용
처리 속도	메모리 내 처리로 Hadoop MapReduce 대비 최대 100배 빠름
핵심 구조	RDD(Resilient Distributed Dataset) — 불변·분산 데이터 컬렉션
언어 지원	Scala(기본), Python(PySpark), Java, R
구성 요소	Spark SQL, Spark Streaming, MLlib(머신러닝), GraphX
처리 방식	배치 처리 + 실시간 스트리밍 모두 지원

🎯 하둡 vs 스파크 빈출 비교
✔ 하둡: 디스크 기반, MapReduce, 배치 처리 중심
✔ 스파크: 메모리 기반, RDD, 배치+실시간 모두 처리
✔ "하둡보다 최대 100배 빠른 인메모리 분산 처리 프레임워크는?" → Apache Spark

데이터 웨어하우스 vs 데이터 레이크

항목	데이터 웨어하우스	데이터 레이크
데이터 형태	정형 데이터 (정제·구조화)	원시 데이터 (정형·비정형 모두)
스키마	저장 전 스키마 정의 (Schema-on-Write)	조회 시 스키마 정의 (Schema-on-Read)
비용	높음	낮음 (저렴한 스토리지)
사용자	비즈니스 분석가	데이터 과학자, 엔지니어
대표 예	Oracle DW, AWS Redshift	AWS S3, Azure Data Lake

5. 데이터 거버넌스

데이터 거버넌스는 조직 내 데이터를 체계적으로 관리·활용하기 위한 원칙·정책·프로세스의 총체입니다.

구성 요소	설명
데이터 품질 관리	데이터의 정확성·완전성·일관성·시의성을 확보하는 활동
메타데이터 관리	데이터에 대한 데이터(데이터의 의미·출처·형식·관계 등) 관리
데이터 표준화	조직 전반의 데이터 형식·용어·코드를 일관되게 정의
데이터 보안·프라이버시	개인정보 보호, 접근 권한 통제, 데이터 유출 방지

💡 개인정보 비식별화 기법
가명 처리: 이름 대신 가명 사용 (홍길동 → A 씨)
총계 처리: 개인 데이터를 집계값으로 대체 (개별 급여 → 평균 급여)
데이터 마스킹: 일부 정보를 '*'으로 대체 (010-1234-***)
데이터 범주화: 정확한 값 대신 범주로 표현 (나이 35 → 30대)

📚 1과목 고득점 전략

① 빅데이터 3V와 5V는 영문 용어까지 완벽히 외우세요. Veracity(정확성)와 Value(가치)는 자주 틀리는 부분입니다.

② KDD 5단계와 CRISP-DM 6단계 순서를 각각 외우고 서로 어떻게 다른지 비교해두세요.

③ 하둡과 스파크의 핵심 차이(디스크 vs 메모리)와 구성 요소를 표로 정리해두면 관련 문제를 쉽게 풀 수 있습니다.

④ NoSQL 4가지 유형(Key-Value·문서·컬럼·그래프)과 대표 제품은 세트로 암기하세요.

🔗 함께 보면 좋은 글
· 빅데이터 분석기사 시험 완벽 가이드
· 빅데이터 분석기사 필기 2과목 — 빅데이터 탐색
· 정보처리기사 필기 3과목 — 데이터베이스 구축