콘텐츠로 이동

AI/ML 모델 학습 자료

AI/ML 모델의 이론적 기초, 핵심 트레이드오프, 실무 상식을 포괄하는 한국어 학습 자료입니다.

이 프로젝트는?

"AI 모델에 대한 학문적/이론적 기초와 다양한 특질 — 예를 들면 Precision이 올라가면 Recall은 trade-off 관계에 있다든지 하는 것들, 상식적인 요소들과 기본적인 소양을 체계적으로 갖추기 위한 학습 자료"

특징

  • 62개 주제를 8개 카테고리로 체계적으로 분류
  • 교과서 수준의 깊이 — 정의, 수식, 직관적 설명, 실무 팁을 모두 포함
  • 한국어 본문 + 영문 기술 용어 인라인 병기
  • LaTeX 수식, Mermaid 다이어그램, 비교 표로 시각적 이해 지원
  • 모든 트레이드오프는 양면을 보여주는 구조
  • 각 주제마다 흔한 오해/함정 섹션 포함

누구를 위한 자료인가?

  • ML 기초를 탄탄하게 다지고 싶은 사람
  • 면접 준비를 위해 핵심 개념을 정리하고 싶은 사람
  • 실무에서 모델을 평가하고 선택하는 판단력을 키우고 싶은 사람

학습 로드맵

graph LR
    A[01 평가 지표] --> B[02 모델 유형]
    A --> C[03 학습 이론]
    B --> D[04 최적화]
    D --> E[05 딥러닝]
    B --> F[06 데이터]
    E --> G[07 실무]
    G --> H[08 최신 주제]

추천 학습 순서: 01 → 03(06 과적합/과소적합) → 02 → 04 → 05 → 06 → 03(나머지) → 07 → 08


목차

01. 평가 지표와 Trade-offs (01-evaluation-metrics/)

# 주제 핵심 내용
01 혼동 행렬과 분류 지표 TP/FP/TN/FN, Accuracy, Precision, Recall, F1, MCC, Cohen's Kappa
02 Precision-Recall Trade-off 임계값 튜닝, PR 곡선, Average Precision
03 ROC와 AUC ROC 곡선 구성, AUC 해석, 불균형 데이터에서의 함정
04 회귀 지표 MSE, RMSE, MAE, MAPE, R-squared
05 Bias-Variance Trade-off 수학적 분해, U자형 곡선, Double Descent
06 교차 검증 k-Fold, Stratified, 시계열, 중첩 CV
07 모델 선택 기준 AIC, BIC, MDL
08 확률 보정 Reliability Diagram, Brier Score, Platt/Temperature Scaling
09 랭킹 지표 Precision@k, MRR, MAP, NDCG
10 통계적 검정 McNemar, 5x2 CV, Wilcoxon, Friedman
11 공정성 지표 Demographic Parity, Equalized Odds, 불가능성 정리

02. 모델 유형별 특성 (02-model-types/)

# 주제 핵심 내용
01 선형 모델 Linear/Logistic Regression, Ridge, Lasso, Elastic Net
02 트리 기반 모델 Decision Tree, Random Forest, XGBoost, LightGBM, CatBoost
03 SVM Kernel Trick, Margin Maximization, SVR
04 Naive Bayes Gaussian, Multinomial, Bernoulli 변형
05 k-NN 거리 메트릭, 차원의 저주, ANN
06 클러스터링 K-Means, DBSCAN, Hierarchical, GMM
07 차원 축소 PCA, t-SNE, UMAP, LDA
08 앙상블 방법 Bagging, Boosting, Stacking
09 그래프 신경망 Message Passing, GCN, GAT, GraphSAGE, GIN, Over-smoothing
10 강화학습 MDP, Q-Learning, DQN, PPO, Actor-Critic, RLHF, DPO
11 시계열 모델 ARIMA, Prophet, LSTM, TFT, N-BEATS, 확률적 예측

03. 학습 이론 (03-learning-theory/)

# 주제 핵심 내용
01 PAC Learning 표본 복잡도, Realizable vs Agnostic
02 VC Dimension Shattering, 성장 함수, 일반화 한계
03 정규화 이론 L1/L2, Dropout, Early Stopping
04 No Free Lunch NFL 정리, 귀납적 편향
05 오컴의 면도날 MDL, SRM, Double Descent
06 과적합과 과소적합 진단, 예방, 학습 곡선
07 베이지안 머신러닝 베이즈 정리, MCMC, 변분 추론, GP, BNN

04. 최적화 (04-optimization/)

# 주제 핵심 내용
01 경사 하강법 SGD, Momentum, Adam, AdamW
02 학습률 스케줄링, Warmup, Cosine Annealing
03 손실 함수 MSE, Cross-Entropy, Focal Loss
04 볼록성 볼록/비볼록 최적화, 안장점
05 하이퍼파라미터 최적화 Grid, Random, Bayesian, Hyperband

05. 딥러닝 기초 (05-deep-learning/)

# 주제 핵심 내용
01 신경망 기초 Perceptron, MLP, Universal Approximation
02 활성화 함수 Sigmoid, ReLU, GELU, Softmax
03 역전파 Chain Rule, 계산 그래프, 자동 미분
04 가중치 초기화 Xavier, He, Orthogonal
05 정규화 기법 BatchNorm, LayerNorm, RMSNorm
06 CNN 합성곱, 풀링, LeNet → ResNet → EfficientNet
07 RNN/LSTM/GRU 게이트 메커니즘, 장기 의존성
08 Attention Self-Attention, Multi-Head, Flash Attention
09 Transformer Encoder-Decoder, Positional Encoding, RoPE
10 전이 학습 Fine-tuning, LoRA, Domain Adaptation
11 생성 모델 GAN, VAE, Diffusion, Autoregressive

06. 데이터 엔지니어링 (06-data-engineering/)

# 주제 핵심 내용
01 특성 공학 인코딩, 스케일링, 특성 생성
02 결측 데이터 MCAR/MAR/MNAR, 대체 전략
03 불균형 데이터 SMOTE, Focal Loss, Threshold Moving
04 데이터 누수 유형, 탐지, 예방
05 특성 선택 Filter, Wrapper, Embedded, SHAP
06 데이터 증강 Mixup, CutMix, 역번역, TTA

07. 실용 ML 지식 (07-practical-ml/)

# 주제 핵심 내용
01 ML 파이프라인 설계 End-to-end 워크플로, 오류 분석
02 실험 추적 MLflow, W&B, 재현성
03 모델 배포 압축, 양자화, 증류, 서빙
04 ML을 쓰지 말아야 할 때 규칙 기반 대안, ROI 분석
05 윤리적 AI 편향, SHAP/LIME, 모델 카드
06 흔한 실수 데이터 누수, 지표 선택, 검증 오류
07 ML 시스템 설계 패턴 Online/Batch, A/B Testing, Feature Store

08. 최신 주제 (08-modern-topics/)

# 주제 핵심 내용
01 대규모 언어 모델 Tokenization, Scaling Laws, RLHF, Prompt Engineering
02 자기지도 학습 Contrastive Learning, Masked Modeling, CLIP
03 Few-shot / Zero-shot Meta-Learning, MAML, In-Context Learning
04 MLOps 기초 CI/CD for ML, Drift Detection, 성숙도 모델

작성 원칙

  • 언어: 한국어 (영문 기술 용어 인라인 병기)
  • 수식: LaTeX ($...$, $$...$$)
  • 시각 자료: Mermaid 다이어그램, 마크다운 표
  • 트레이드오프: 항상 양면을 보여줌
  • 실용성: 흔한 실수/오해 + 실무 팁 포함

상세 작성 가이드는 CONTRIBUTING.md를 참조하세요.

저장소 구조

about-model-and-models/
├── README.md              # 전체 목차 + 학습 로드맵 (이 파일)
├── CLAUDE.md              # 프로젝트 컨텍스트 & 작업 상태
├── CONTRIBUTING.md        # 콘텐츠 작성 상세 가이드라인
├── 01-evaluation-metrics/ # 평가 지표와 Trade-offs (11 files)
├── 02-model-types/        # 모델 유형별 특성 (11 files)
├── 03-learning-theory/    # 학습 이론 (7 files)
├── 04-optimization/       # 최적화 (5 files)
├── 05-deep-learning/      # 딥러닝 기초 (11 files)
├── 06-data-engineering/   # 데이터 엔지니어링 (6 files)
├── 07-practical-ml/       # 실용 ML 지식 (7 files)
└── 08-modern-topics/      # 최신 주제 (4 files)