topic난이도 · 약 25

AI/ML 기초 용어

AI ⊃ ML ⊃ DL — 포함 관계를 기억하라. Loss를 줄이는 것이 AI 학습의 목표이다.

#AI#ML#DL#Training#Inference#Loss#Gradient
왜 배우는가

ChatGPT에게 질문하면 척척 답한다. 하지만 이 AI는 수개월간 수조 개의 텍스트로 '훈련'을 받았다. AI가 학습한다는 건 구체적으로 어떤 과정일까?

AI 학습은 요리사의 수련과 같습니다. 레시피를 외우는 게 아니라, 감을 익힙니다

이번 챕터는 특별합니다. Ch1~8에서 우리가 직접 만들어본 것들 — 이진수, 토큰화, 벡터, Softmax, 경사하강법, Attention, TinyLM — 이 모든 개념이 현업에서 사용하는 '진짜 이름'을 갖고 있습니다. 이 섹션의 용어들을 배우면 '아, 그때 그게 이거였구나!' 하는 순간이 계속 올 겁니다.

수천 번 요리(Training)를 반복하며 실력을 쌓고, 실전(Inference)에서 새로운 주문에 대응합니다. AI도 똑같이 데이터로 훈련하고, 새 입력에 대해 예측합니다.

AI, ML, DL, Neural Network, Training, Inference, Model, Parameter, Weight, Epoch, Batch, Loss, Gradient, Overfitting, GPU

Ch1에서 '규칙 기반 AI vs 학습 기반 AI'를 비교했었죠? 그때의 학습 기반 AI가 바로 ML이고, Ch7~8에서 우리가 만든 Attention + TinyLM이 DL입니다. 이제 그 세계를 정식 이름으로 정리합시다.

AI(Artificial Intelligence) — 인간의 지능을 모방하는 기술의 총칭입니다. 가장 넓은 범주. ML(Machine Learning) — AI의 한 분야. 데이터에서 규칙을 자동으로 학습합니다. DL(Deep Learning) — ML의 한 분야. 여러 층의 신경망을 사용합니다. ChatGPT가 바로 이것입니다.

Neural Network(신경망) — 인간의 뇌 신경세포를 모방한 구조입니다. 입력 → 여러 '층(Layer)'을 통과 → 출력.

AIMLDL (포함 관계) AI = 지능 모방 기술 전체 ML = 데이터에서 패턴 학습 DL = 깊은 신경망 사용 Neural Network = 뇌를 모방한 연결 구조

AI > ML > DL 포함 관계 — 가장 넓은 AI 안에 ML, 그 안에 DL이 포함

Ch8에서 TinyLM의 학습 루프를 직접 작성했었죠? `for epoch in range(100)` — 그 반복이 바로 Training입니다. 그리고 학습이 끝난 모델에 새 문장을 넣어본 것이 Inference입니다.

Training(훈련) — 데이터를 보여주며 모델을 학습시키는 과정입니다. 수개월이 걸리고 GPU 수백 대가 필요합니다. Inference(추론) — 훈���된 모델에 새 입력을 넣어 결과를 얻는 과정입니다.

Model(모델) — 학습된 패턴의 집합체입니다. GPT-4, Claude가 모델입니다. Parameter(파라미터) — 모델이 학습한 숫자 값입니다. GPT-4는 수조 개의 파라미터를 가집니다. Weight(가중치) — 신경망 연결의 강도를 나타내는 파라미터입니다.

Training = 데이터로 모델 학습 (수개월) Inference = 학습된 모델로 예측 (밀리초) Model = 학습된 패턴 집합체 Parameter/Weight = 모델의 학습된 숫자 값

Ch5에서 Cross-Entropy Loss를 계산했고, Ch6에서 Gradient로 경��하강법을 구현했습니다. 그때 코드를 떠올려보세요: `loss.backward()` → `optimizer.step()`. 이것이 바로 'Loss를 줄이기 위해 Gradient를 따라 Parameter를 조정'하는 과정이었습니다.

Epoch(에포크) — 전체 학습 데이터를 한 번 다 본 것 = 1 에포크. Batch(배치) — 한 번에 묶어서 처리하는 데이터 양입니다.

Loss(손실) — 모델의 예측이 정답과 얼마나 다른지 나타내는 숫자입니다. 작을수록 좋습니다. Gradient(경사/기울기) — Loss를 줄이기 위해 파라미터를 어느 방향으로 조정할지 알려주는 값입니다.

Overfitting(과적합) — 훈련 데이터만 너무 잘 맞추고 새 데이터에 약한 상태입니다. GPU — AI 학습의 핵심 하드웨어입니다. 행렬곱을 수천 개 코어로 병렬 처리합니다.

Epoch = 전체 데이터 1회 학습 Batch = 한 번에 처리하는 데이터 묶음 Loss = 예측 오차 (작을수록 좋음) Overfitting = 훈련 데이터에만 과하게 맞춤

AI 계층 구조설명
AI인간 지능 모방 기술의 총칭 (가장 넓은 범주)
ML데이터에서 패턴을 자동 학습하는 AI의 한 분야
DL여러 층의 신경망을 사용하는 ML의 한 분야 (ChatGPT)
Neural Network뇌의 신경세포를 모방한 연결 구조
학습 과정설명
Training데이터로 모델을 학습시키는 과정 (수개월, GPU 수백 대)
Inference학습된 모델로 예측하는 과정 (밀리초 단위)
Model / ParameterModel = 학습된 패턴 집합체, Parameter = 학습된 숫자 값
학습 용어설명
Epoch / BatchEpoch = 전체 데이터 1회 학습, Batch = 묶음 처리 단위
Loss예측과 정답의 오차 — 작을수록 좋음
GradientLoss를 줄이기 위한 조정 방향
Overfitting훈련 데이터에만 과하게 맞춘 상태

AI ⊃ ML ⊃ DL — 포함 관계를 기억하세요. Loss를 줄이는 것이 AI 학습의 목표입니다

실기 드릴 4문항
edit실기 드릴 · 단답형

AI ⊃ ML ⊃ DL 관계에서, ChatGPT가 해당하는 가장 구체적인 분야는?

edit실기 드릴 · 단답형

훈련된 모델에 새 입력을 넣어 결과를 얻는 과정은?

check_circle실기 드릴 · OX

Overfitting은 훈련 데이터와 새 데이터 모두에서 성능이 좋은 상태이다

edit실기 드릴 · 단답형

모델의 예측이 정답과 얼마나 다른지 나타내는 값은?