topic★★★★★난이도 · 약 18분

빅데이터 5V & 하둡 에코시스템

5V(Volume·Velocity·Variety·Veracity·Value) + 하둡 10개 컴포넌트.

#빅데이터#하둡#Spark

왜 배우는가

5V 나열, 하둡 컴포넌트의 역할 짝짓기(HDFS=저장, MapReduce=처리, YARN=자원), Sqoop vs Flume 대비, Hive vs Pig 대비 — 매회 2~3문항 고정.

빅데이터는 전통 DBMS로 처리 불가능한 규모·속도·다양성을 지닌 데이터. Gartner Doug Laney(2001)가 3V로 정의한 뒤, IBM이 Veracity 추가(4V), 최근 Value까지 더해 5V가 시험 표준.

5V — Volume(규모, TB·PB) · Velocity(생성·처리 속도) · Variety(정형·비정형 다양성) · Veracity(신뢰성·정확성) · Value(가치 창출).

하둡 구성 요소	역할
HDFS	분산 파일 시스템 (블록 단위, 3복제)
MapReduce	분산 처리 프로그래밍 모델
YARN	자원 관리(Resource Manager + Node Manager)
Hive	SQL 기반 쿼리 (HiveQL → MapReduce 변환)
Pig	데이터 흐름 스크립트 (Pig Latin)
HBase	분산 컬럼 DB (HDFS 위)
Spark	인메모리 고속 처리 (MR 대비 최대 100×)
Zookeeper	분산 조정·리더 선출
Sqoop	RDB ↔ HDFS 배치 이관
Flume	실시간 로그·스트림 수집

Sqoop vs Flume — Sqoop=SQL to Hadoop 배치 이관(정해진 시간에 대량). Flume=로그 스트리밍(실시간). "실시간 vs 배치" 구분이 시험 포인트. Hive vs Pig — Hive는 SQL 익숙한 분석가용(선언형). Pig는 스크립트 데이터 파이프라인용(절차형).

HDFS 내결함성 — 파일을 128MB 블록으로 쪼개 3개 노드에 복제 저장(기본 설정). 노드 1개 다운되어도 다른 복제본으로 복구. 3복제가 시험 출제 포인트.

Spark vs MapReduce — MR은 단계마다 디스크 기록으로 느림. Spark는 RDD(Resilient Distributed Dataset)로 메모리에 상주시켜 반복 연산을 100× 이상 가속. 머신러닝·그래프 처리에 특화.

실기 드릴 4문항

edit실기 드릴 · 단답형

빅데이터의 5V를 영문으로 모두 쓰시오.

edit실기 드릴 · 단답형

하둡 에코시스템에서 분산 파일 시스템 역할을 하는 컴포넌트는?

space_bar실기 드릴 · 빈칸 채우기

하둡에서 RDB를 HDFS로 배치 이관하는 도구는 ( ㉠ )이고, 실시간 로그 스트림을 수집하는 도구는 ( ㉡ )이다.

check_circle실기 드릴 · OX

Spark는 MapReduce보다 디스크 I/O를 늘려 성능을 개선한다.