DW · Data Lake · OLAP · Star vs Snowflake
DW/Data Mart/Data Lake + OLAP 5연산 + Star·Snowflake 스키마.
OLAP 5연산과 OLAP vs OLTP 대비는 필기 고정. 2023년 이후 Star vs Snowflake 스키마(팩트·차원 테이블) 단답이 추가. Schema-on-Read(Data Lake) vs Schema-on-Write(DW) 키워드도 빈출.
데이터 분석을 위한 저장소는 목적에 따라 DW·Data Mart·Data Lake 세 가지로 나뉜다. 분석은 OLAP(Online Analytical Processing) 연산으로 수행하며, OLTP(운영 시스템)와는 다르게 "의사결정 지원"이 목적.
| 저장소 | 특징 | 스키마 관리 | 사용자 |
|---|---|---|---|
| Data Warehouse (DW) | 조직 전체 통합, 주제 중심 | Schema-on-Write | 전사 분석가 |
| Data Mart | 부서·주제별 소규모 DW | Schema-on-Write | 부서 분석가 |
| Data Lake | 원본 형태 그대로 | Schema-on-Read | 데이터 사이언티스트 |
OLAP 5연산 — Drill-Down(세분화) · Roll-Up(집계) · Slicing(1차원 고정) · Dicing(다차원 부분집합) · Pivoting(축 회전). Drill-Through(원본으로 내려가기)를 6번째로 추가 출제하는 경우도 있음.
| 구분 | OLTP | OLAP |
|---|---|---|
| 목적 | 트랜잭션 처리 | 의사결정 지원 |
| 데이터 | 현재·상세 | 이력·집계 |
| 연산 | CRUD | 분석·집계 |
| 응답 | 빠름(ms) | 느림(sec~min) |
| 예시 쿼리 | 주문 1건 | 월별 매출 합계 |
Star vs Snowflake 스키마 - 스타 스키마: 중앙 팩트 테이블(매출·주문 등 측정치) + 주변 차원 테이블(시간·상품·지역)가 비정규화 상태로 방사형 연결. 조회 빠름. - 스노우플레이크 스키마: 차원 테이블을 정규화해 계층형 확장. 저장 공간 절약, 조회 시 조인 많음.
갤럭시 스키마(Galaxy/Fact Constellation) — 여러 팩트 테이블이 공통 차원을 공유하는 복합 구조. 실무 대규모 DW에서 흔하며, 스타/스노우플레이크의 조합으로 간주.
OLAP 연산 중 요약에서 상세로 파고드는 연산은?
스타 스키마에서 중앙에 놓이는 측정치 테이블을 ( ㉠ )(이)라 하고, 주변에 놓이는 설명 테이블을 ( ㉡ )(이)라 한다.
Data Lake가 DW와 다르게 "읽을 때 스키마를 결정"하는 방식을 영문으로 뭐라 부르는가?
스노우플레이크 스키마는 차원 테이블을 정규화해 조인이 줄고 조회가 빨라진다.