콘텐츠로 이동

오컴의 면도날 (Occam's Razor in ML)

난이도: 중급
선수 지식: PAC 학습, VC 차원 기초
관련 문서: VC 차원 | 정규화 이론 | 과적합과 과소적합 | No Free Lunch


개요

오컴의 면도날(Occam's Razor)은 14세기 윌리엄 오컴이 제안한 원리로, "데이터를 동등하게 잘 설명하는 모델들 중에서 가장 단순한 것을 선호하라"는 것이다.

머신러닝에서 이 원리는 다양한 형태로 나타난다: - 정규화 (모델 복잡도 제약) - 모델 선택 기준 (AIC, BIC) - 구조적 위험 최소화 (SRM) - 최소 기술 길이 원리 (MDL) - 베이지안 모델 비교


핵심 개념

1. 기본 원리

"필요 이상으로 개체를 늘리지 말라" (Entities should not be multiplied beyond necessity)

ML에서의 해석: 데이터를 충분히 잘 설명하는 가장 단순한 모델이 새로운 데이터에도 가장 잘 일반화할 가능성이 높다.

이것은 경험적 원칙이지, 수학적 정리가 아니다. 하지만 여러 이론적 프레임워크가 이 원리를 지지한다.


2. 형식적 연결

최소 기술 길이 (Minimum Description Length, MDL)

최적의 모델은 총 기술 길이를 최소화한다:

\[\text{Total Length} = L(\text{model}) + L(\text{data} | \text{model})\]
  • \(L(\text{model})\): 모델 자체를 기술하는 데 필요한 비트 수 (복잡도)
  • \(L(\text{data} | \text{model})\): 모델이 주어졌을 때 데이터를 기술하는 데 필요한 비트 수 (오류)
모델 유형 모델 기술 길이 데이터 기술 길이 비고
너무 단순 짧음 길음 (큰 오류) 과소적합
적정 중간 중간 최적
너무 복잡 길음 짧음 (작은 오류) 과적합

베이지안 해석

베이지안 모델 비교에서 오컴의 면도날이 자연스럽게 내장되어 있다:

\[P(M|\text{data}) \propto P(\text{data}|M) \cdot P(M)\]
  • 단순한 모델은 더 높은 사전 확률 \(P(M)\)을 가짐
  • 주변 우도 (marginal likelihood) \(P(\text{data}|M) = \int P(\text{data}|\theta, M)P(\theta|M)d\theta\)는 자연스럽게 복잡도를 페널티함
  • 복잡한 모델은 파라미터 공간이 넓어 각 파라미터 설정의 사전 확률이 낮아짐
  • "자동 오컴의 면도날" (Automatic Occam's Razor)

구조적 위험 최소화 (SRM)

\[R(h) \le R_{\text{emp}}(h) + \sqrt{\frac{d\left(\ln\frac{2n}{d}+1\right) + \ln\frac{4}{\delta}}{n}}\]
  • \(R_{\text{emp}}(h)\): 경험적 위험 (훈련 오류)
  • 두 번째 항: 복잡도 페널티 (VC 차원 \(d\)에 의존)
  • 둘의 합을 최소화 = 오컴의 면도날

정보 기준

기준 수식 특징
AIC \(-2\ln L + 2k\) 파라미터 수 \(k\)에 비례하는 페널티
BIC \(-2\ln L + k\ln n\) 데이터 크기 \(n\)도 반영, 더 강한 페널티

\(L\): 최대 우도, \(k\): 파라미터 수, \(n\): 데이터 수


3. 모델 복잡도 척도

척도 설명 사용처
파라미터 수 가장 직관적, 항상 정확하지는 않음 일반적
VC 차원 가설 클래스의 표현력 이론적 분석
Rademacher 복잡도 데이터 의존적 복잡도 일반화 바운드
기술 길이 모델을 인코딩하는 데 필요한 비트 MDL
자유도 유효 파라미터 수 정규화된 모델
유효 파라미터 수 정규화 고려한 실질적 복잡도 Ridge 등

4. 이중 하강 현상 (Double Descent)

오컴의 면도날에 대한 현대적 도전:

전통적 관점

테스트 오류가 U자형: 과소적합 --> 최적 --> 과적합

현대적 관찰

과매개변수화된(overparameterized) 모델에서, 보간 임계점(interpolation threshold) 이후 테스트 오류가 다시 감소:

테스트 오류
    │  \              /\
    │   \            /  \
    │    \     ___  /    \___________
    │     \___/                      
    └───────────────────────────────── 모델 복잡도
          과소적합  최적  과적합  보간   과매개변수
                              임계점

이중 하강의 함의

관찰 의미
보간 임계점 이후 오류 감소 매우 큰 모델은 다시 잘 동작할 수 있음
암묵적 정규화의 역할 SGD, 네트워크 구조 등이 자동으로 복잡도 제어
오컴의 면도날 수정 "단순한 모델"의 의미가 파라미터 수만으로 결정되지 않음

5. 실무적 지침

  1. 단순한 모델부터 시작: 복잡도를 점진적으로 증가
  2. 교차 검증: 적절한 복잡도를 데이터에서 판단
  3. 정규화 활용: 복잡한 모델도 유효 복잡도를 제어 가능
  4. 과소적합과 과적합 모두 경계: 너무 단순해도, 너무 복잡해도 문제
  5. 문맥 고려: 딥러닝 시대에는 과매개변수화가 필연적이므로 암묵적 정규화에 의존

상세 내용

복잡도 vs 성능 트레이드오프 곡선

graph TD
    subgraph curve["모델 복잡도에 따른 오류 변화"]
        direction LR
        A["<b>과소적합 영역</b><br/>높은 편향, 낮은 분산<br/>훈련·테스트 오류 모두 높음"]
        B["<b>최적 영역</b><br/>편향-분산 균형<br/>테스트 오류 최소"]
        C["<b>과적합 영역</b><br/>낮은 편향, 높은 분산<br/>훈련 오류↓ 테스트 오류↑"]
        A -->|"복잡도 증가 →"| B
        B -->|"복잡도 증가 →"| C
    end

    subgraph occam["오컴의 면도날 적용"]
        D["단순한 모델에서 시작"]
        E["성능이 개선되는 동안 복잡도 증가"]
        F["테스트 성능이 악화되면 멈춤"]
        D --> E --> F
    end

    curve --- occam

    style A fill:#ffcdd2
    style B fill:#c8e6c9
    style C fill:#ffcdd2
    style D fill:#e3f2fd
    style E fill:#e3f2fd
    style F fill:#e3f2fd

MDL 원리 심화 (Minimum Description Length)

MDL은 Jorma Rissanen(1978)이 제안한 프레임워크로, 학습 문제를 데이터 압축 문제로 재해석한다.

2-파트 MDL (Two-Part MDL)

기본 형태는 모델과 잔차를 각각 인코딩한다:

\[\hat{M} = \arg\min_{M} \left[ L(M) + L(D|M) \right]\]
  • \(L(M)\): 모델의 코드 길이. 파라미터가 많을수록, 각 파라미터의 정밀도가 높을수록 길어진다.
  • \(L(D|M)\): 모델이 설명하지 못하는 잔차의 코드 길이. 모델이 정확할수록 짧아진다.

예를 들어, 다항 회귀에서: - 차수 1 (직선): \(L(M)\)은 짧지만 데이터를 잘 맞추지 못하면 \(L(D|M)\)이 길다 - 차수 20: \(L(M)\)이 길어지지만 \(L(D|M)\)은 매우 짧을 수 있다 - 최적 차수: 둘의 합이 최소인 지점

정규화된 MDL (Refined MDL)

현대적 MDL은 정규화된 최대 우도(Normalized Maximum Likelihood, NML)를 사용하여 모델 클래스 수준에서 비교한다:

\[\text{NML}(x^n) = \frac{P(x^n | \hat{\theta}(x^n))}{\int P(y^n | \hat{\theta}(y^n)) dy^n}\]

분모의 적분은 모델 복잡도(parametric complexity)를 자동으로 반영한다.

구조적 위험 최소화 (SRM) 연결

SRM은 Vapnik이 제안한 프레임워크로, 오컴의 면도날을 VC 이론과 직접 연결한다.

SRM 절차

  1. 가설 공간을 복잡도 순서대로 중첩 구조(nested structure)로 배열한다:
\[H_1 \subset H_2 \subset H_3 \subset \cdots\]

여기서 \(\text{VC}(H_1) \le \text{VC}(H_2) \le \text{VC}(H_3) \le \cdots\)

  1. \(H_k\)에서 경험적 위험을 최소화하는 가설 \(h_k\)를 찾는다
  2. 구조적 위험(경험적 위험 + 복잡도 페널티)이 최소인 \(H_k\)를 선택한다

SRM과 정규화의 등가성

SRM에서 가설 공간 선택은 정규화 강도 선택과 수학적으로 등가이다:

SRM 관점 정규화 관점
\(H_k\) 선택 \(\lambda\) 선택
VC 차원 \(d_k\) 제한 가중치 놈(norm) 제한
중첩 가설 공간 정규화 경로(regularization path)

예를 들어, SVM에서 마진 최대화는 SRM의 구체적 실현이다. 마진이 클수록 효과적 VC 차원이 줄어들며, 이는 더 단순한 가설 공간 \(H_k\)를 선택하는 것에 대응한다.

MDL, SRM, 베이지안의 삼각 관계

세 프레임워크는 서로 다른 관점에서 오컴의 면도날을 형식화하지만, 많은 경우 동일한 모델 선택 결과로 수렴한다:

프레임워크 핵심 원리 복잡도 페널티의 출처 대표 기준
MDL 데이터 압축 코드 길이 NML, 2-파트 코딩
SRM 최악의 경우 일반화 VC 차원 기반 바운드 \(R_{\text{emp}} + \sqrt{d/n}\)
베이지안 사후 확률 최대화 사전 분포를 통한 자동 페널티 BIC, 주변 우도

세 접근 모두 "모델 적합도와 모델 복잡도의 균형"이라는 동일한 핵심 원리를 공유한다.


언제 사용하는가

오컴의 면도날은 모델 선택의 지침 원리이다:

  • 비슷한 성능의 모델 중 선택할 때 --> 단순한 것 선택
  • 모델 복잡도를 결정할 때 --> 정규화, 교차 검증 활용
  • 베이스라인 모델 설정 시 --> 간단한 모델부터 시작
  • 결과 해석이 중요한 경우 --> 해석 가능한 단순 모델 선호

흔한 오해와 함정

1. "항상 가장 간단한 모델을 써야 한다"

  • 아니다. "데이터를 동등하게 잘 설명하는 모델 중" 가장 단순한 것이다. 단순한 모델이 데이터를 잘 설명하지 못하면 더 복잡한 모델이 필요하다.

2. "파라미터 수가 적은 것이 항상 단순하다"

  • 이중 하강 현상에서 보듯이, 매우 큰 모델이 더 좋은 일반화를 보일 수 있다. "복잡도"는 파라미터 수만으로 결정되지 않는다.

3. "오컴의 면도날은 수학적으로 증명되었다"

  • 엄밀히 말하면 원리(principle)이지 정리(theorem)가 아니다. 다만 MDL, SRM, 베이지안 프레임워크 등이 이론적 지지를 제공한다.

4. "딥러닝 시대에 오컴의 면도날은 쓸모없다"

  • 형태가 변했을 뿐이다. 정규화, 드롭아웃, 조기 종료 등은 모두 오컴의 면도날의 현대적 구현이다.

다른 주제와의 연결


자주 묻는 면접 질문

  1. ML에서 오컴의 면도날이란?
  2. 데이터를 동등하게 잘 설명하는 모델들 중 가장 단순한 것을 선호하는 원리

  3. MDL과 오컴의 면도날의 관계는?

  4. MDL은 오컴의 면도날을 형식화한 것: 모델 기술 길이 + 데이터 기술 길이의 합을 최소화

  5. 이중 하강이 오컴의 면도날에 도전하는 이유는?

  6. 전통적으로 복잡도가 증가하면 과적합이 예상되지만, 매우 큰 모델에서 다시 성능이 개선됨. 파라미터 수만으로 복잡도를 측정하는 것이 부적절할 수 있음.

  7. 베이지안 프레임워크에서 오컴의 면도날이 자연스럽게 나타나는 이유는?

  8. 복잡한 모델은 넓은 파라미터 공간에 사전 확률을 분산시켜야 하므로, 주변 우도에서 자동으로 패널티를 받음

용어 정리

영어 한국어
Occam's Razor 오컴의 면도날
Minimum Description Length (MDL) 최소 기술 길이
Structural Risk Minimization (SRM) 구조적 위험 최소화
Model Complexity 모델 복잡도
Double Descent 이중 하강
Interpolation Threshold 보간 임계점
Marginal Likelihood 주변 우도
Effective Degrees of Freedom 유효 자유도
AIC / BIC 아카이케/베이지안 정보 기준

참고 자료

  • Rissanen (1978) - "Modeling by Shortest Data Description" (MDL)
  • Vapnik (1995) - The Nature of Statistical Learning Theory (SRM)
  • MacKay (2003) - Information Theory, Inference, and Learning Algorithms (Bayesian Occam)
  • Belkin et al. (2019) - "Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-off" (Double Descent)
  • Nakkiran et al. (2021) - "Deep Double Descent: Where Bigger Models and More Data Can Hurt"