ETL — Extract · Transform · Load
원본 데이터를 추출 → 변환 → 적재하는 데이터 파이프라인 3단계. ELT는 변환 순서가 다른 변형.
ETL 3단계 이름과 순서가 단답 고정 출제. 2024년 2회차 필기에 "ELT가 ETL보다 빅데이터에 유리한 이유"를 서술형으로 물음. ETL↔ELT 차이를 구조적으로 이해해야 한다.
ETL(Extract-Transform-Load)은 OLTP(운영 DB)나 외부 소스에서 데이터를 꺼내 형식을 변환·정제한 뒤 DW에 적재하는 파이프라인이다. 변환을 별도 스테이징 서버에서 수행하므로 DW는 이미 정제된 상태로 받는다.
| 단계 | 영문 | 의미 | 도구 예시 |
|---|---|---|---|
| 추출 | Extract | 원본 DB·파일에서 데이터 추출 | Sqoop, Kafka Connect |
| 변환 | Transform | 형식 변환, 정제, 집계, 조인 | Informatica, Talend |
| 적재 | Load | 대상 DW에 INSERT/BULK LOAD | Bulk Loader, COPY |
ETL vs ELT — ETL은 Transform을 중간 스테이징에서. ELT는 원본을 먼저 DW에 적재 후 DW 내부에서 Transform. 클라우드 DW(BigQuery·Snowflake·Redshift)가 대용량 변환을 잘 처리하므로 ELT가 빅데이터에 유리.
CDC (Change Data Capture) — 데이터 전환의 고급 기법. 원본 DB의 변경분(INSERT/UPDATE/DELETE)만 실시간 추출. Debezium, Oracle GoldenGate 대표. 대량 전체 추출 대비 부하 1/100.
데이터 전환 4단계 실무 절차 — ① 전환 계획(범위·일정 수립) ② 전환 설계(매핑 정의) ③ 전환 실행(ETL/ELT 가동) ④ 검증·오류 관리(데이터 일치 확인, 오류 재처리). 실기에서 각 단계의 산출물을 묻는다.
ETL의 3단계를 순서대로 쓰시오.
ETL은 ( ㉠ )에서 Transform을 수행하고, ELT는 ( ㉡ )에서 수행한다.
원본 DB의 변경분만 실시간으로 추출하는 데이터 전환 기법의 이름은?
ELT는 원본을 먼저 변환한 뒤 DW에 적재하는 방식이다.