빅데이터 5V & 하둡 에코시스템
5V(Volume·Velocity·Variety·Veracity·Value) + 하둡 10개 컴포넌트.
5V 나열, 하둡 컴포넌트의 역할 짝짓기(HDFS=저장, MapReduce=처리, YARN=자원), Sqoop vs Flume 대비, Hive vs Pig 대비 — 매회 2~3문항 고정.
빅데이터는 전통 DBMS로 처리 불가능한 규모·속도·다양성을 지닌 데이터. Gartner Doug Laney(2001)가 3V로 정의한 뒤, IBM이 Veracity 추가(4V), 최근 Value까지 더해 5V가 시험 표준.
5V — Volume(규모, TB·PB) · Velocity(생성·처리 속도) · Variety(정형·비정형 다양성) · Veracity(신뢰성·정확성) · Value(가치 창출).
| 하둡 구성 요소 | 역할 |
|---|---|
| HDFS | 분산 파일 시스템 (블록 단위, 3복제) |
| MapReduce | 분산 처리 프로그래밍 모델 |
| YARN | 자원 관리(Resource Manager + Node Manager) |
| Hive | SQL 기반 쿼리 (HiveQL → MapReduce 변환) |
| Pig | 데이터 흐름 스크립트 (Pig Latin) |
| HBase | 분산 컬럼 DB (HDFS 위) |
| Spark | 인메모리 고속 처리 (MR 대비 최대 100×) |
| Zookeeper | 분산 조정·리더 선출 |
| Sqoop | RDB ↔ HDFS 배치 이관 |
| Flume | 실시간 로그·스트림 수집 |
Sqoop vs Flume — Sqoop=SQL to Hadoop 배치 이관(정해진 시간에 대량). Flume=로그 스트리밍(실시간). "실시간 vs 배치" 구분이 시험 포인트. Hive vs Pig — Hive는 SQL 익숙한 분석가용(선언형). Pig는 스크립트 데이터 파이프라인용(절차형).
HDFS 내결함성 — 파일을 128MB 블록으로 쪼개 3개 노드에 복제 저장(기본 설정). 노드 1개 다운되어도 다른 복제본으로 복구. 3복제가 시험 출제 포인트.
Spark vs MapReduce — MR은 단계마다 디스크 기록으로 느림. Spark는 RDD(Resilient Distributed Dataset)로 메모리에 상주시켜 반복 연산을 100× 이상 가속. 머신러닝·그래프 처리에 특화.
빅데이터의 5V를 영문으로 모두 쓰시오.
하둡 에코시스템에서 분산 파일 시스템 역할을 하는 컴포넌트는?
하둡에서 RDB를 HDFS로 배치 이관하는 도구는 ( ㉠ )이고, 실시간 로그 스트림을 수집하는 도구는 ( ㉡ )이다.
Spark는 MapReduce보다 디스크 I/O를 늘려 성능을 개선한다.