자기지도 학습 (Self-Supervised Learning)

핵심 요약: 레이블 없이 데이터 자체에서 패턴을 학습하는 기법이다. BERT의 “빈칸 맞추기(Masked LM)”, SimCLR의 “같은 이미지의 다른 변형은 유사하게” 학습 등이 대표적. 라벨링 비용을 획기적으로 줄인다.

초보자를 위한 핵심 용어

자기지도 학습(Self-Supervised Learning, SSL): 라벨 없이 데이터 자체의 구조를 활용해 학습 신호를 만드는 방법. 지도 학습과 비지도 학습의 중간 형태.
대조 학습(Contrastive Learning): “같은 것은 가깝게, 다른 것은 멀게” 배치하는 학습 방법. 같은 고양이 사진의 회전/크롭 버전끼리는 가깝게, 다른 이미지와는 멀게.
사전 학습(Pre-training): 대규모 비라벨 데이터로 범용적인 표현을 먼저 학습하는 단계. 이후 소량 라벨 데이터로 미세 조정(fine-tuning)한다.
CLIP: 이미지와 텍스트를 같은 공간에 매핑하는 모델. “고양이 사진”이라는 텍스트와 실제 고양이 이미지를 가깝게 학습하여, 텍스트만으로 이미지를 분류할 수 있다.

개요

자기지도 학습(Self-Supervised Learning, SSL)은 라벨이 없는 데이터에서 스스로 학습 신호를 생성하여 유용한 표현(representation)을 학습하는 기법이다. 지도 학습은 대규모 라벨링이 필요하지만, SSL은 데이터 자체의 구조를 활용한다. BERT의 Masked Language Modeling, GPT의 다음 토큰 예측, SimCLR의 대조 학습 등이 대표적이며, 현재 딥러닝의 사전 학습 패러다임의 핵심이다.

탄생 배경

“라벨이 필요 없다” — 이 단순한 아이디어가 딥러닝의 패러다임을 바꾸었다. 지도 학습의 가장 큰 병목은 대규모 라벨링 비용이었다. ImageNet의 1,400만 장 이미지에 라벨을 붙이는 데 수년이 걸렸고, 의료/법률 등 전문 도메인에서는 라벨링 비용이 천문학적이었다.

2020년 Google Research의 SimCLR(Simple Contrastive Learning of Representations)은 라벨 없이도 ImageNet 지도 학습에 근접하는 표현을 학습할 수 있음을 보여주며 비전 분야의 SSL 혁명을 촉발했다. 핵심 아이디어는 같은 이미지의 서로 다른 증강 버전을 “유사한 쌍”으로, 다른 이미지를 “다른 쌍”으로 학습하는 대조 학습(Contrastive Learning)이었다.

2021년 OpenAI의 CLIP(Contrastive Language-Image Pre-training)은 4억 개의 이미지-텍스트 쌍으로 대조 학습을 수행하여, 별도의 학습 없이(zero-shot) 이미지를 분류할 수 있는 모델을 만들었다. CLIP은 텍스트 설명만으로 임의의 카테고리를 분류할 수 있어, 전통적인 “학습 → 분류” 패러다임 자체를 재정의했다. SSL은 NLP(BERT, GPT), 비전(SimCLR, MAE), 오디오(wav2vec), 멀티모달(CLIP) 등 거의 모든 도메인에서 현대 딥러닝의 기본 패러다임으로 자리 잡았다.

핵심 개념

1. 대조 학습 (Contrastive Learning)

핵심 아이디어: 유사한 쌍(positive pair)은 임베딩 공간에서 가깝게, 다른 쌍(negative pair)은 멀게 학습한다.

InfoNCE Loss: $L = -\log \frac{\exp(\text{sim}(z_i, z_j) / \tau)}{\sum_{k=1}^{2N} \mathbb{1}_{[k \neq i]} \exp(\text{sim}(z_i, z_k) / \tau)}$

$z_i$ , $z_j$ : positive pair의 임베딩
$\tau$ : temperature 파라미터
$\text{sim}$ : 코사인 유사도

SimCLR (Simple Contrastive Learning)

SimCLR (Simple Contrastive Learning) 다이어그램

같은 이미지의 다른 증강 = positive pair
다른 이미지 = negative pair
핵심 발견: 큰 배치 크기, 강한 증강, projection head가 성능에 중요

MoCo (Momentum Contrast)

Momentum encoder + queue로 큰 negative 풀을 메모리 효율적으로 유지
SimCLR의 큰 배치 크기 제약을 해결

Negative-free Methods

모델	핵심 아이디어	Collapse 방지
BYOL	Teacher-Student, momentum update	Momentum encoder
SimSiam	동일 네트워크, stop-gradient	Stop-gradient
VICReg	분산-불변-공분산 정규화	명시적 정규화 항

→ Negative pair 없이도 좋은 표현을 학습할 수 있음을 보여주었다.

CLIP (Contrastive Language-Image Pre-training)

이미지-텍스트 쌍으로 대조 학습. 이미지 인코더와 텍스트 인코더를 동시에 학습하여, 텍스트로 이미지를 검색하거나, zero-shot 이미지 분류가 가능하다.

2. 마스킹 기반 학습 (Masked Modeling)

입력의 일부를 마스킹하고, 마스킹된 부분을 복원하도록 학습한다.

도메인	모델	마스킹 비율	특징
텍스트	BERT (MLM)	15%	토큰 단위 마스킹
이미지	MAE	75%	패치 단위, 높은 마스킹 비율
오디오	wav2vec 2.0	-	오디오 프레임 마스킹

MAE (Masked Autoencoder)

He et al. (2022)이 제안. 이미지 패치의 75%를 마스킹하고 복원한다.

매우 높은 마스킹 비율이 핵심 (이미지는 텍스트보다 중복성이 높음)
인코더는 보이는 패치만 처리 → 효율적 학습
디코더는 가벼운 구조로 복원

상세 내용

SSL vs 지도 학습 비교

특성	지도 학습	자기지도 학습
라벨 필요	필수	불필요
데이터 확보	비용 높음	비용 낮음
표현의 범용성	과제 특화적	범용적
소량 라벨 시	과적합 위험	사전 학습 후 few-shot 가능
계산 비용	상대적 낮음	높음 (대규모 사전 학습)

SSL의 학습 패러다임

SSL의 학습 패러다임 다이어그램 이 패러다임은 현재 NLP(BERT, GPT), 비전(MAE, CLIP), 오디오(wav2vec), 멀티모달(CLIP, DALL-E) 등 거의 모든 도메인에서 채택되고 있다.

언제 사용하는가

상황	SSL 적합도	비고
라벨 없는 데이터가 풍부	매우 적합	핵심 사용 시나리오
라벨 획득 비용이 높음	적합	의료, 법률 등
범용 표현이 필요	적합	다양한 downstream 과제
특정 과제에 라벨이 충분	덜 필요	직접 지도 학습이 효율적
멀티모달 이해	매우 적합	CLIP 등
도메인 적응	적합	도메인 내 비라벨 데이터 활용

실전 사례

200만 달러 레이블링 예산을 80% 절감한 SSL 도입 사례

한 대형 이커머스 회사에서 상품 이미지 분류 모델을 운영하고 있었다. 수만 개의 카테고리에 걸친 상품을 분류하기 위해 매년 200만 달러 이상의 레이블링 예산을 투입하고 있었으며, 새로운 카테고리가 추가될 때마다 대규모 재라벨링이 필요했다.

SSL 도입 후 다음과 같은 변화가 있었다:

1단계: 수천만 장의 비라벨 상품 이미지로 SimCLR 기반 사전 학습을 수행했다. 이 과정에서 모델은 색상, 형태, 질감, 구조적 패턴 등 범용적인 시각 표현을 학습했다
2단계: 각 카테고리당 50~~100장~~의 라벨 이미지만으로 fine-tuning을 수행했다. 이전에는 카테고리당 5,00010,000장이 필요했다
결과: 라벨링 비용이 80% 절감되었고, 새로운 카테고리 추가 시 소량의 라벨만으로 빠르게 대응할 수 있게 되었다
성능: 분류 정확도는 기존 대규모 라벨 기반 모델과 동등하거나 일부 카테고리에서 오히려 높았다. SSL로 학습한 표현이 더 범용적이고 견고했기 때문이다

이 사례는 SSL이 단순히 기술적 혁신이 아니라 비즈니스 비용 구조를 근본적으로 바꿀 수 있다는 점을 보여준다.

흔한 오해와 함정

“SSL은 비지도 학습(unsupervised learning)이다”: SSL은 데이터 자체에서 감독 신호를 생성한다. 엄밀히는 지도 학습의 변형에 가깝다. 전통적 비지도 학습(클러스터링 등)과는 다르다.
“Negative pair가 반드시 필요하다”: BYOL, SimSiam 등이 negative pair 없이도 좋은 성능을 달성함을 보여주었다.
“SSL 사전 학습이면 fine-tuning이 불필요하다”: SSL로 학습한 표현은 범용적이지만, 특정 과제에 최적화하려면 fine-tuning이 필요하다.
“대조 학습에서 배치 크기가 작아도 된다”: SimCLR는 큰 배치(4096+)에서 성능이 좋다. 배치 크기가 작으면 MoCo 같은 대안을 고려하라.
Projection head를 downstream에 사용: Projection head는 대조 학습의 학습 신호를 위한 것이며, downstream에서는 인코더의 표현을 사용해야 한다.

다른 주제와의 연결

전이 학습: SSL은 사전 학습의 핵심 방법론
LLM: BERT의 MLM, GPT의 CLM이 SSL
Transformer: ViT + MAE, BERT
데이터 증강: 대조 학습에서 강한 증강이 핵심
CNN: SimCLR의 ResNet 백본
Few-Shot/Zero-Shot: SSL 표현을 활용한 소량 학습
생성 모델: MAE, VQ-VAE