topic난이도 · 약 25

종합 실습 — 미니 데이터 파이프라인

변수 · 타입 · 조건문 · 반복문 · 함수 · 클래스를 하나의 프로그램으로 통합한다.

#파이프라인#Counter#리스트 컴프리헨션#종합 실습#데이터 전처리
왜 배우는가

각 문법 조각을 모으면 데이터 전처리기가 된다. 실제 ChatGPT의 학습 데이터가 거치는 과정과 본질적으로 같다. 정제 → 필터 → 중복제거 → 통계의 4단계 파이프라인을 직접 만들어본다.

변수 → 타입 → 문자열 → 조건문 → 반복문 → JSON → 함수 → 에러 처리 → 클래스. 이 조각들을 모으면 데이터 전처리기가 됩니다. 실제 AI 학습의 첫 단계인 데이터 파이프라인을 직접 만들어봅시다. 이것이 ChatGPT의 학습 데이터가 거치는 과정과 본질적으로 같습니다.

리스트 = 선반 — 데이터를 순서대로 정리하는 구조

4단계로 데이터를 처리합니다

1. 정제 — 공백·줄바꿈 정리 → 2. 필터 — 품질 미달 제거 → 3. 중복제거 — 같은 텍스트 제거 → 4. 통계 — 토큰 수·빈도 분석

4단계를 하나의 클래스로 통합해봅시다

클래스로 4단계 파이프라인을 통합했다. clean → filter_quality → deduplicate → analyze 순서로 실행한다. 리스트 컴프리헨션, set, Counter 등 여러 문법을 조합한다.

파이프라인 4단계설명
① 정제(clean)공백·줄바꿈 정리 — strip(), replace()
② 필터(filter)품질 미달 데이터 제거 — len(), 조건문 활용
③ 중복제거(dedup)set()으로 이미 본 텍스트 추적, 중복 스킵
④ 통계(analyze)Counter로 토큰 빈도 분석, most_common()
Ch2 문법 총정리설명
변수·타입·f-string데이터를 담고, 구별하고, 출력하는 기초
if/for + 함수데이터를 필터링·반복·재사용하는 도구
클래스 + 에러처리코드를 조직화하고 안전하게 실행

이 4단계가 실제 ChatGPT 학습 데이터가 거치는 전처리 과정과 본질적으로 동일!

실기 드릴 2문항
edit실기 드릴 · 단답형

[x*2 for x in data if x > 3]에서 if x > 3의 역할은?

edit실기 드릴 · 단답형

Counter는 어떤 기능을 제공하는가?