생성 모델 (Generative Models)

핵심 요약: 생성 모델(Generative Model)은 새로운 데이터(이미지, 텍스트 등)를 생성하는 모델이다. GAN은 생성자와 판별자의 경쟁으로 학습하고, VAE는 잠재 공간(Latent Space)을 통해 생성하며, Diffusion Model은 노이즈에서 데이터를 복원하는 방식으로 현재 이미지 생성의 주류가 되었다.

개요

생성 모델(Generative Model)은 데이터의 확률 분포를 학습하여 새로운 데이터를 생성하는 모델이다. 이미지 생성(GAN, Diffusion), 텍스트 생성(GPT), 음악 합성 등 다양한 분야에서 활용된다. GAN, VAE, Diffusion Model, 자기회귀 모델, Flow 모델 등 여러 패러다임이 존재하며, 각각 학습 안정성, 생성 품질, 다양성, 속도 면에서 다른 특성을 가진다.

탄생 배경

생성 모델의 현대사는 2014년, Ian Goodfellow가 동료들과 술집에서 나눈 대화에서 시작되었다. “위조지폐범(Generator)과 경찰(Discriminator)이 서로 경쟁하면, 위조지폐범의 실력이 점점 좋아지지 않겠는가?” — 이 직관에서 GAN (Generative Adversarial Network)이 탄생했다. GAN은 이미지 생성의 품질을 비약적으로 끌어올렸지만, 모드 붕괴(Mode Collapse)와 학습 불안정이라는 고질적인 문제를 안고 있었다.

같은 해, Diederik Kingma는 변분 추론(Variational Inference)에 기반한 VAE (Variational Autoencoder)를 제안했다. VAE는 GAN보다 학습이 안정적이고 잠재 공간(Latent Space)이 구조적이었지만, 생성 이미지가 흐릿하다는 한계가 있었다.

2020년, Jonathan Ho의 DDPM (Denoising Diffusion Probabilistic Model)이 등장하면서 판도가 바뀌었다. “깨끗한 이미지에 노이즈를 조금씩 더했다가, 그 역과정을 학습하면 노이즈에서 이미지를 생성할 수 있다”는 아이디어였다. DDPM은 GAN의 모드 붕괴 문제 없이 높은 품질과 다양성을 동시에 달성했다. 2022년, Stable Diffusion이 잠재 공간에서 확산을 수행하는 Latent Diffusion 기법으로 효율성까지 해결하면서, 텍스트-이미지 생성의 대중화 시대를 열었다.

비유: GAN은 위조지폐범과 감별사의 대결이다. 위조지폐범은 점점 정교한 위조지폐를 만들고, 감별사는 점점 까다롭게 판별한다. 이 경쟁이 균형을 이루면 완벽한 위조지폐(=진짜 같은 이미지)가 탄생하지만, 한쪽이 너무 강해지면 게임이 무너진다. 반면 Diffusion Model은 깨끗한 사진에 모래를 한 줌씩 뿌려 완전히 덮은 뒤, 모래를 한 줌씩 조심스럽게 걷어내는 복원 과정을 학습하는 것이다. 복원 과정을 충분히 학습하면, 순수한 모래(노이즈)에서 시작해도 깨끗한 사진을 만들어낼 수 있다.

핵심 개념

1. GANs (Generative Adversarial Networks)

Goodfellow et al. (2014)이 제안한 적대적 학습 프레임워크이다.

구조: Generator $G$ + Discriminator $D$

목적 함수 (minimax game): $\min_G \max_D \; \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$

$D$ 는 진짜/가짜를 구별하려 하고, $G$ 는 $D$ 를 속이려 한다
이상적 균형(Nash Equilibrium, 내시 균형): $G$ 가 실제 데이터 분포를 완벽히 모사

숫자로 이해하기

GAN의 학습 과정을 3라운드로 따라가 보자 (숫자 생성 예시).

라운드 1: 생성자(Generator)가 랜덤 노이즈에서 “3” 비슷한 이미지를 생성
- 판별자(Discriminator): “이건 가짜 (확률 90%)” → 맞음
- 생성자는 “더 진짜처럼 만들어야겠다”는 피드백(기울기)을 받음
라운드 2: 생성자가 좀 더 나은 “3”을 생성
- 판별자: “이건 가짜 (확률 65%)” → 아직 구별 가능하지만 어려워짐
- 생성자는 다시 개선 피드백을 받음
라운드 3: 생성자가 상당히 진짜 같은 “3”을 생성
- 판별자: “진짜인지 가짜인지 모르겠다 (확률 52%)” → 거의 찍기 수준
- 이상적으로 판별자의 확률이 50%(동전 던지기)에 수렴하면 학습 완료

이 과정을 수만 라운드 반복하면 생성자는 진짜와 구별할 수 없는 이미지를 만들어낸다. 그러나 생성자가 “3”만 잘 만들고 다른 숫자는 못 만드는 문제가 모드 붕괴(Mode Collapse)이다.

1. GANs (Generative Adversarial Networks) 다이어그램 문제점과 개선:

문제	설명	해결
Mode Collapse	소수의 샘플만 반복 생성	WGAN, diversity loss
학습 불안정	G와 D의 균형 유지 어려움	WGAN-GP, spectral norm
Vanishing Gradient for G	D가 너무 강하면 G에 기울기 전달 안됨	Non-saturating loss

주요 변형:

WGAN: Wasserstein distance 사용 → 학습 안정성 향상
StyleGAN: 스타일 기반 생성, 고해상도 이미지
Progressive GAN: 저해상도 → 고해상도로 점진적 학습

2. VAEs (Variational Autoencoders)

Kingma & Welling (2014)이 제안한 확률적 생성 모델이다.

구조: Encoder (인식 모델 $q(z|x)$ ) + Decoder (생성 모델 $p(x|z)$ )

목적 함수 (ELBO, Evidence Lower Bound): $\mathcal{L} = \underbrace{\mathbb{E}_{q(z|x)}[\log p(x|z)]}_{\text{재구성 손실}} - \underbrace{D_{KL}(q(z|x) \| p(z))}_{\text{KL 정규화}}$

재구성 손실: 입력을 잘 복원하도록 학습
KL 정규화: 잠재 분포를 사전 분포 $p(z) = \mathcal{N}(0, I)$ 에 가깝게

Reparameterization Trick(재매개변수화 트릭): 확률적 샘플링(Sampling) 과정에도 역전파가 가능하도록 변환하는 기법이다: $z = \mu + \sigma \odot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

장점	단점
이론적으로 우아	생성 이미지가 흐릿한 경향
잠재 공간이 구조적	GAN보다 생성 품질 낮음
안정적 학습	KL collapse (후방 붕괴) 문제

변형: $\beta$ -VAE (Disentanglement — 잠재 변수 각각이 독립적인 의미를 갖도록 학습 — 강화), VQ-VAE (이산 잠재 변수(Discrete Latent Variable), 이미지 토큰화)

3. Diffusion Models (확산 모델)

최근 이미지 생성의 주류가 된 모델이다.

핵심 아이디어: 데이터에 점진적으로 노이즈를 추가(forward process)하고, 그 역과정(reverse process)을 학습한다.

Forward Process (노이즈 추가): $q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} \, x_{t-1}, \beta_t I)$

Reverse Process (노이즈 제거 — 학습 대상): $p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 I)$

3. Diffusion Models (확산 모델) 다이어그램

장점	단점
GAN보다 학습 안정적	생성 속도 느림 (수백~수천 스텝)
높은 생성 품질	계산 비용 높음
높은 다양성 (mode coverage)

주요 발전:

DDPM (Ho et al., 2020): 기본 확산 모델
DDIM: 비확률적 샘플링으로 속도 향상
Latent Diffusion (Stable Diffusion): 잠재 공간에서 확산 → 효율성 대폭 향상
Classifier-Free Guidance: 조건부 생성의 품질-다양성 제어

4. 자기회귀 모델 (Autoregressive Models)

데이터를 조건부 확률의 곱으로 분해하여 순차적으로 생성한다.

$p(x) = \prod_{i=1}^{n} p(x_i | x_{<i})$

모델	도메인	특징
PixelCNN	이미지	픽셀별 순차 생성
WaveNet	오디오	샘플별 순차 생성
GPT	텍스트	토큰별 순차 생성

장점: 정확한 likelihood 계산, 안정적 학습
단점: 순차 생성으로 느림

5. Flow 기반 모델 (Flow-based Models)

가역(invertible) 변환의 체인을 통해 단순한 분포를 복잡한 분포로 변환한다.

$p(x) = p(z) \left|\det \frac{\partial f^{-1}}{\partial x}\right|$

대표 모델: RealNVP, Glow

장점: 정확한 likelihood 계산, 효율적 샘플링
단점: 아키텍처 제약 (가역성 필요), 파라미터 비효율

상세 내용

생성 모델 종합 비교

특성	GAN	VAE	Diffusion	Autoregressive	Flow
학습 안정성	낮음	높음	높음	높음	높음
생성 품질	높음	중간	매우 높음	높음	중간
다양성	낮음 (mode collapse)	높음	높음	높음	높음
생성 속도	매우 빠름 (1 pass)	빠름	느림	느림	빠름
Likelihood	계산 불가	하한(ELBO)	하한	정확	정확
잠재 공간	비구조적	구조적	-	-	구조적

Stable Diffusion 아키텍처

이미지 → 잠재 벡터 (사전 학습된 VAE 인코더)
잠재 공간에서 확산 (U-Net + Cross-Attention)
잠재 벡터 → 이미지 (VAE 디코더)

텍스트 조건은 CLIP 텍스트 인코더로 임베딩하여, U-Net의 Cross-Attention에 입력한다.

언제 사용하는가

과제	추천 모델	이유
고품질 이미지 생성	Diffusion	최고 품질, 다양성
실시간 이미지 생성	GAN	빠른 생성 속도
텍스트 생성	Autoregressive (GPT)	자연스러운 순차 생성
이미지 편집	Diffusion (SDEdit)	유연한 조건부 생성
잠재 공간 탐색	VAE	구조적 잠재 공간
이미지 토큰화	VQ-VAE	이산 표현 학습
정확한 밀도 추정	Flow / Autoregressive	likelihood 계산 가능

실전 사례

GAN의 모드 붕괴 시대가 끝나고 Diffusion이 승리한 이유

2014년부터 2020년까지, GAN은 이미지 생성의 왕좌를 차지했다. StyleGAN2(2020)는 사람 얼굴 생성에서 사실상 사람과 구별 불가능한 수준에 도달했다. 그러나 GAN에는 근본적인 문제가 있었다:

첫째, 모드 붕괴(Mode Collapse). Generator가 Discriminator를 속이는 데 성공한 소수의 패턴만 반복 생성하며, 데이터의 다양성을 포착하지 못했다. 얼굴 생성에서는 잘 작동했지만, 복잡한 장면이나 다양한 객체를 생성하는 데는 한계가 명확했다. 둘째, 학습 불안정. Generator와 Discriminator의 균형을 맞추는 것이 극도로 어려워, 하이퍼파라미터 튜닝에 방대한 시간과 경험이 필요했다.

2021년, Dhariwal & Nichol의 논문 “Diffusion Models Beat GANs on Image Synthesis”는 제목 그대로의 결과를 보여주었다. Diffusion Model은 FID(Frechet Inception Distance) 점수에서 GAN을 넘어서면서도 모드 붕괴 없이 높은 다양성을 유지했다. 핵심 이유는 학습 목적 함수의 차이에 있다: GAN의 적대적 학습은 불안정한 Nash Equilibrium을 찾아야 하지만, Diffusion의 노이즈 예측은 단순한 MSE 회귀(Regression)로 안정적이다.

2022년 Stable Diffusion의 등장은 결정적이었다. 픽셀 공간이 아닌 잠재 공간(Latent Space)에서 확산을 수행하여 계산 효율을 대폭 개선했고, CLIP 텍스트 인코더와 Cross-Attention으로 텍스트 조건부 생성을 구현했다. 오픈소스로 공개된 Stable Diffusion은 수개월 만에 전 세계적으로 폭발적인 생태계를 형성했으며, Midjourney, DALL-E 3 등 상용 서비스의 기반 기술이 되었다. 현재 이미지 생성 분야에서 GAN은 실시간 생성이 필요한 특수한 경우에만 사용되고, 주류는 완전히 Diffusion으로 넘어갔다.

흔한 오해와 함정

“GAN이 항상 최고 품질”: 2020년대 이후 Diffusion Model이 이미지 생성 품질에서 GAN을 넘어섰다. GAN은 속도 면에서 여전히 유리하다.
VAE의 흐릿한 이미지가 불가피하다: VQ-VAE와 같은 변형은 이산 잠재 변수를 사용하여 선명한 이미지를 생성할 수 있다.
Diffusion Model이 너무 느려 실용적이지 않다: DDIM, Latent Diffusion, Consistency Model 등의 발전으로 수십 스텝 이하로 생성이 가능해졌다.
GAN 학습의 불안정성을 무시: GAN 학습에는 세심한 하이퍼파라미터 튜닝이 필요하다. Generator와 Discriminator의 학습 속도 균형, gradient penalty 등이 중요하다.

다른 주제와의 연결

CNN: GAN의 Generator/Discriminator, U-Net
어텐션 메커니즘: Diffusion의 Cross-Attention
Transformer: Autoregressive 생성 (GPT), DiT
전이 학습: 사전 학습된 생성 모델의 fine-tuning
LLM: 자기회귀 언어 모델
Self-Supervised Learning: MAE (VAE의 변형)
윤리적 AI: 생성 모델의 악용 가능성
데이터 증강: 생성 모델을 활용한 데이터 증강