빅데이터 분석기사 필기 1과목 빅데이터 분석 기획은 빅데이터의 개념·특성·기술 생태계와 분석 방법론·계획을 다룹니다. 암기 비중이 높고 기술 용어가 많지만 출제 패턴이 일정해서 정리만 잘 되어 있으면 고득점이 가능합니다.
1. 빅데이터의 이해 — 3V와 5V
빅데이터 3V (기본 특성)
Volume
규모
데이터의 양이 기존과 비교할 수 없을 만큼 방대함. TB·PB 단위
Variety
다양성
정형·반정형·비정형 데이터가 혼재. 텍스트·영상·음성·로그 등
Velocity
속도
데이터가 생성·수집·처리되는 속도가 매우 빠름. 실시간 처리 요구
빅데이터 5V (확장 특성)
| 특성 | 설명 |
|---|---|
| Volume (규모) | 방대한 데이터 양 |
| Variety (다양성) | 정형·비정형 등 다양한 데이터 유형 |
| Velocity (속도) | 빠른 생성 및 처리 속도 |
| Veracity (정확성) | 데이터의 신뢰성·정확성. 노이즈와 불확실성 관리 |
| Value (가치) | 데이터에서 추출하는 비즈니스 가치 |
🎯 빈출 포인트
✔ "빅데이터의 기본 3가지 특성은?" → Volume·Variety·Velocity
✔ "빅데이터의 5V 중 데이터의 신뢰성과 관련된 특성은?" → Veracity
✔ 데이터 유형: 정형(DB 테이블), 반정형(JSON·XML·HTML), 비정형(텍스트·영상·음성)
✔ "빅데이터의 기본 3가지 특성은?" → Volume·Variety·Velocity
✔ "빅데이터의 5V 중 데이터의 신뢰성과 관련된 특성은?" → Veracity
✔ 데이터 유형: 정형(DB 테이블), 반정형(JSON·XML·HTML), 비정형(텍스트·영상·음성)
데이터 유형 분류
| 유형 | 특징 | 예시 |
|---|---|---|
| 정형 데이터 | 행과 열로 구성된 스키마 고정 데이터. SQL로 처리 | 관계형 DB, 엑셀, CSV |
| 반정형 데이터 | 스키마가 있지만 유연함. 태그·마커로 구조 표현 | JSON, XML, HTML, 로그 파일 |
| 비정형 데이터 | 정해진 형식 없음. 전체 데이터의 약 80% 차지 | SNS 텍스트, 이미지, 동영상, 음성 |
2. 데이터 분석 방법론
KDD (Knowledge Discovery in Databases)
데이터베이스에서 지식을 발견하는 과정입니다. 순서를 외우는 것이 핵심입니다.
| 단계 | 활동 |
|---|---|
| ① 선택 (Selection) | 분석 목적에 맞는 데이터를 원본 데이터에서 선택 |
| ② 전처리 (Preprocessing) | 결측치·이상치 처리, 노이즈 제거 |
| ③ 변환 (Transformation) | 분석에 적합한 형태로 데이터 변환·통합 |
| ④ 데이터 마이닝 (Data Mining) | 알고리즘 적용으로 패턴·규칙·모델 발견 |
| ⑤ 해석·평가 (Interpretation/Evaluation) | 발견된 패턴을 평가하고 지식으로 표현 |
CRISP-DM (Cross Industry Standard Process for Data Mining)
산업 표준 데이터 마이닝 프로세스입니다. KDD보다 실무적인 관점의 방법론이에요.
| 단계 | 활동 |
|---|---|
| ① 업무 이해 (Business Understanding) | 비즈니스 목표 파악, 분석 목표 정의 |
| ② 데이터 이해 (Data Understanding) | 데이터 수집, 탐색적 분석, 품질 평가 |
| ③ 데이터 준비 (Data Preparation) | 전처리, 변수 선택, 데이터 변환 |
| ④ 모델링 (Modeling) | 분석 기법 선택, 모델 학습 |
| ⑤ 평가 (Evaluation) | 모델 성능 평가, 업무 목표 충족 여부 확인 |
| ⑥ 전개 (Deployment) | 모델 배포, 모니터링, 최종 보고 |
🎯 KDD vs CRISP-DM 빈출 포인트
✔ KDD 5단계: 선택→전처리→변환→데이터마이닝→해석·평가
✔ CRISP-DM 6단계: 업무이해→데이터이해→데이터준비→모델링→평가→전개
✔ CRISP-DM의 특징: 단계 간 피드백 루프 존재. 비선형적 반복 가능
✔ KDD 5단계: 선택→전처리→변환→데이터마이닝→해석·평가
✔ CRISP-DM 6단계: 업무이해→데이터이해→데이터준비→모델링→평가→전개
✔ CRISP-DM의 특징: 단계 간 피드백 루프 존재. 비선형적 반복 가능
분석 방법 — 목적에 따른 분류
| 분류 | 목적 | 예시 |
|---|---|---|
| 기술 분석 (Descriptive) | 과거 데이터를 요약·기술. "무슨 일이 있었나?" | 매출 현황 리포트, 평균·분산 계산 |
| 진단 분석 (Diagnostic) | 원인 파악. "왜 그런 일이 있었나?" | 매출 감소 원인 분석 |
| 예측 분석 (Predictive) | 미래 예측. "앞으로 어떻게 될 것인가?" | 이탈 고객 예측, 수요 예측 |
| 처방 분석 (Prescriptive) | 최적 행동 제안. "어떻게 해야 하나?" | 추천 시스템, 최적화 알고리즘 |
3. 데이터 수집·저장 기술
데이터 수집 방식
| 방식 | 설명 |
|---|---|
| 크롤링 (Crawling) | 웹 페이지를 자동으로 탐색하며 데이터 수집. 구조화되지 않은 웹 데이터 수집 |
| API 수집 | 공개 API(SNS, 공공 데이터 등)를 통해 정형화된 데이터 수집. JSON 형태 |
| 로그 수집 | 서버·애플리케이션의 로그 파일을 실시간으로 수집. Fluentd, Logstash |
| 스트리밍 수집 | 실시간 데이터를 연속으로 수집·처리. Apache Kafka, Spark Streaming |
NoSQL 데이터베이스
빅데이터 저장에 특화된 비관계형 데이터베이스입니다. 스키마가 유연하고 수평 확장이 용이해요.
| 유형 | 특징 | 대표 제품 |
|---|---|---|
| Key-Value 저장소 | 키-값 쌍으로 저장. 단순하고 빠름. 캐싱에 적합 | Redis, DynamoDB |
| 문서형 DB | JSON·BSON 형태의 문서 저장. 유연한 스키마 | MongoDB, CouchDB |
| 컬럼형 DB | 컬럼 단위로 데이터 저장. 대용량 분석에 최적화 | HBase, Cassandra |
| 그래프 DB | 노드-엣지 구조. 관계 중심 데이터에 최적 | Neo4j |
4. 빅데이터 처리 인프라
하둡 (Hadoop) 에코시스템
| 구성 요소 | 역할 |
|---|---|
| HDFS (Hadoop Distributed File System) | 대용량 파일을 블록 단위로 분산 저장. 복제(기본 3개)로 내고장성 보장 |
| MapReduce | 분산 처리 프레임워크. Map(분류)→Shuffle→Reduce(집계) 단계 |
| YARN | 클러스터 자원 관리 및 작업 스케줄링. Hadoop 2.0부터 도입 |
| Hive | SQL과 유사한 HiveQL로 HDFS 데이터를 쿼리. 배치 분석 |
| HBase | HDFS 위에 구축된 컬럼형 NoSQL DB. 실시간 읽기·쓰기 |
| Sqoop | 관계형 DB와 Hadoop 간 데이터 전송 도구 |
| Flume | 로그 데이터를 실시간으로 수집해 HDFS에 저장 |
Apache Spark
Hadoop MapReduce의 단점(디스크 I/O 빈번)을 개선한 인메모리(In-Memory) 분산 처리 프레임워크입니다.
| 특징 | 내용 |
|---|---|
| 처리 속도 | 메모리 내 처리로 Hadoop MapReduce 대비 최대 100배 빠름 |
| 핵심 구조 | RDD(Resilient Distributed Dataset) — 불변·분산 데이터 컬렉션 |
| 언어 지원 | Scala(기본), Python(PySpark), Java, R |
| 구성 요소 | Spark SQL, Spark Streaming, MLlib(머신러닝), GraphX |
| 처리 방식 | 배치 처리 + 실시간 스트리밍 모두 지원 |
🎯 하둡 vs 스파크 빈출 비교
✔ 하둡: 디스크 기반, MapReduce, 배치 처리 중심
✔ 스파크: 메모리 기반, RDD, 배치+실시간 모두 처리
✔ "하둡보다 최대 100배 빠른 인메모리 분산 처리 프레임워크는?" → Apache Spark
✔ 하둡: 디스크 기반, MapReduce, 배치 처리 중심
✔ 스파크: 메모리 기반, RDD, 배치+실시간 모두 처리
✔ "하둡보다 최대 100배 빠른 인메모리 분산 처리 프레임워크는?" → Apache Spark
데이터 웨어하우스 vs 데이터 레이크
| 항목 | 데이터 웨어하우스 | 데이터 레이크 |
|---|---|---|
| 데이터 형태 | 정형 데이터 (정제·구조화) | 원시 데이터 (정형·비정형 모두) |
| 스키마 | 저장 전 스키마 정의 (Schema-on-Write) | 조회 시 스키마 정의 (Schema-on-Read) |
| 비용 | 높음 | 낮음 (저렴한 스토리지) |
| 사용자 | 비즈니스 분석가 | 데이터 과학자, 엔지니어 |
| 대표 예 | Oracle DW, AWS Redshift | AWS S3, Azure Data Lake |
5. 데이터 거버넌스
데이터 거버넌스는 조직 내 데이터를 체계적으로 관리·활용하기 위한 원칙·정책·프로세스의 총체입니다.
| 구성 요소 | 설명 |
|---|---|
| 데이터 품질 관리 | 데이터의 정확성·완전성·일관성·시의성을 확보하는 활동 |
| 메타데이터 관리 | 데이터에 대한 데이터(데이터의 의미·출처·형식·관계 등) 관리 |
| 데이터 표준화 | 조직 전반의 데이터 형식·용어·코드를 일관되게 정의 |
| 데이터 보안·프라이버시 | 개인정보 보호, 접근 권한 통제, 데이터 유출 방지 |
💡 개인정보 비식별화 기법
가명 처리: 이름 대신 가명 사용 (홍길동 → A 씨)
총계 처리: 개인 데이터를 집계값으로 대체 (개별 급여 → 평균 급여)
데이터 마스킹: 일부 정보를 '*'으로 대체 (010-1234-***)
데이터 범주화: 정확한 값 대신 범주로 표현 (나이 35 → 30대)
가명 처리: 이름 대신 가명 사용 (홍길동 → A 씨)
총계 처리: 개인 데이터를 집계값으로 대체 (개별 급여 → 평균 급여)
데이터 마스킹: 일부 정보를 '*'으로 대체 (010-1234-***)
데이터 범주화: 정확한 값 대신 범주로 표현 (나이 35 → 30대)
📚 1과목 고득점 전략
① 빅데이터 3V와 5V는 영문 용어까지 완벽히 외우세요. Veracity(정확성)와 Value(가치)는 자주 틀리는 부분입니다.
② KDD 5단계와 CRISP-DM 6단계 순서를 각각 외우고 서로 어떻게 다른지 비교해두세요.
③ 하둡과 스파크의 핵심 차이(디스크 vs 메모리)와 구성 요소를 표로 정리해두면 관련 문제를 쉽게 풀 수 있습니다.
④ NoSQL 4가지 유형(Key-Value·문서·컬럼·그래프)과 대표 제품은 세트로 암기하세요.
① 빅데이터 3V와 5V는 영문 용어까지 완벽히 외우세요. Veracity(정확성)와 Value(가치)는 자주 틀리는 부분입니다.
② KDD 5단계와 CRISP-DM 6단계 순서를 각각 외우고 서로 어떻게 다른지 비교해두세요.
③ 하둡과 스파크의 핵심 차이(디스크 vs 메모리)와 구성 요소를 표로 정리해두면 관련 문제를 쉽게 풀 수 있습니다.
④ NoSQL 4가지 유형(Key-Value·문서·컬럼·그래프)과 대표 제품은 세트로 암기하세요.