오컴의 면도날 (Occam's Razor in ML)

난이도: 중급
선수 지식: PAC 학습, VC 차원 기초
관련 문서: VC 차원 | 정규화 이론 | 과적합과 과소적합 | No Free Lunch

핵심 요약: 데이터를 똑같이 잘 설명하면 단순한 모델을 선택하라. 오컴의 면도날(Occam’s Razor)은 700년 된 철학 원리지만, 정규화(Regularization), AIC/BIC, 베이지안 모델 비교(Bayesian Model Comparison) 등 현대 ML의 핵심 기법들이 모두 이 원리의 수학적 구현이다.

개요

오컴의 면도날(Occam’s Razor)은 14세기 윌리엄 오컴이 제안한 원리로, “데이터를 동등하게 잘 설명하는 모델들 중에서 가장 단순한 것을 선호하라”는 것이다.

머신러닝에서 이 원리는 다양한 형태로 나타난다:

정규화 (모델 복잡도 제약)
모델 선택 기준 (AIC, BIC)
구조적 위험 최소화 (SRM)
최소 기술 길이 원리 (MDL)
베이지안 모델 비교

탄생 배경

오컴의 면도날의 기원은 14세기 영국의 프란체스코회 수도사이자 철학자인 윌리엄 오컴(William of Ockham, c.1287~1347)으로 거슬러 올라간다. 그의 핵심 원칙은 “Entia non sunt multiplicanda praeter necessitatem” — 즉, “필요 이상으로 개체를 늘리지 말라”는 것이었다.

오컴은 당시 스콜라 철학에서 불필요하게 복잡한 형이상학적 개념들이 남발되는 것을 비판하며 이 원칙을 주장했다. 흥미롭게도, 이 700년 된 철학 원리가 현대 머신러닝의 핵심 지침이 되었다. 과적합(Overfitting)이라는 현상이 본질적으로 “필요 이상으로 복잡한 모델을 만드는 것”이기 때문이다.

현대 ML에서 오컴의 면도날은 여러 수학적 프레임워크로 형식화되었다: Rissanen의 MDL(1978), Vapnik의 SRM(1995), 그리고 베이지안 모델 비교에서의 자동 오컴의 면도날(Automatic Occam’s Razor) 등이 그것이다.

핵심 개념

1. 기본 원리

“필요 이상으로 개체를 늘리지 말라” (Entities should not be multiplied beyond necessity)

ML에서의 해석: 데이터를 충분히 잘 설명하는 가장 단순한 모델이 새로운 데이터에도 가장 잘 일반화할 가능성이 높다.

이것은 경험적 원칙이지, 수학적 정리가 아니다. 하지만 여러 이론적 프레임워크가 이 원리를 지지한다.

숫자로 이해하기

10개의 데이터 포인트가 대략 직선 형태일 때, 어떤 모델을 선택해야 할까?

모델	파라미터(Parameter) 수	훈련 오류	테스트 오류	판정
1차 다항식 (직선)	2	0.08	0.09	적정
3차 다항식	4	0.05	0.07	약간의 개선, 수용 가능
9차 다항식	10	0.001	0.35	과적합(Overfitting)

9차 다항식은 훈련 데이터를 거의 완벽히 통과하지만, 새 데이터에서 성능이 급락한다. MDL(Minimum Description Length) 관점에서 보면: 9차 모델은 모델 기술 길이(Description Length)가 길고(파라미터 10개), 데이터 기술 길이는 짧다(오류 거의 0). 하지만 총 기술 길이는 1차 모델이 더 짧다. 즉, 단순한 모델이 데이터를 더 효율적으로 “압축”한다.

2. 형식적 연결

최소 기술 길이 (Minimum Description Length, MDL)

최적의 모델은 총 기술 길이를 최소화한다:

$\text{Total Length} = L(\text{model}) + L(\text{data} | \text{model})$

$L(\text{model})$ : 모델 자체를 기술하는 데 필요한 비트 수 (복잡도)
$L(\text{data} | \text{model})$ : 모델이 주어졌을 때 데이터를 기술하는 데 필요한 비트 수 (오류)

모델 유형	모델 기술 길이	데이터 기술 길이	비고
너무 단순	짧음	길음 (큰 오류)	과소적합
적정	중간	중간	최적
너무 복잡	길음	짧음 (작은 오류)	과적합

베이지안 해석

베이지안 모델 비교에서 오컴의 면도날이 자연스럽게 내장되어 있다:

$P(M|\text{data}) \propto P(\text{data}|M) \cdot P(M)$

단순한 모델은 더 높은 사전 확률 $P(M)$ 을 가짐
주변 우도 (marginal likelihood) $P(\text{data}|M) = \int P(\text{data}|\theta, M)P(\theta|M)d\theta$ $P (data ∣ M) = \int P (data ∣ θ, M) P (θ ∣ M) d θ$ 는 자연스럽게 복잡도를 페널티함
- 복잡한 모델은 파라미터 공간이 넓어 각 파라미터 설정의 사전 확률이 낮아짐
- “자동 오컴의 면도날” (Automatic Occam’s Razor)

구조적 위험 최소화 (SRM)

$R(h) \le R_{\text{emp}}(h) + \sqrt{\frac{d\left(\ln\frac{2n}{d}+1\right) + \ln\frac{4}{\delta}}{n}}$

$R_{\text{emp}}(h)$ : 경험적 위험 (훈련 오류)
두 번째 항: 복잡도 페널티 (VC 차원 $d$ 에 의존)
둘의 합을 최소화 = 오컴의 면도날

정보 기준

기준	수식	특징
AIC	$-2\ln L + 2k$	파라미터 수 $k$ 에 비례하는 페널티
BIC	$-2\ln L + k\ln n$	데이터 크기 $n$ 도 반영, 더 강한 페널티

$L$ : 최대 우도, $k$ : 파라미터 수, $n$ : 데이터 수

3. 모델 복잡도 척도

척도	설명	사용처
파라미터 수	가장 직관적, 항상 정확하지는 않음	일반적
VC 차원	가설 클래스의 표현력	이론적 분석
Rademacher 복잡도	데이터 의존적 복잡도	일반화 바운드
기술 길이	모델을 인코딩하는 데 필요한 비트	MDL
자유도	유효 파라미터 수	정규화된 모델
유효 파라미터 수	정규화 고려한 실질적 복잡도	Ridge 등

4. 이중 하강 현상 (Double Descent)

오컴의 면도날에 대한 현대적 도전:

전통적 관점

테스트 오류가 U자형: 과소적합 —> 최적 —> 과적합

현대적 관찰

과매개변수화된(overparameterized) 모델에서, 보간 임계점(interpolation threshold) 이후 테스트 오류가 다시 감소:

테스트 오류
    │
    │  \              /\
    │   \            /  \
    │    \     ___  /    \___________
    │     \___/
    │
    └───────────────────────────────── 모델 복잡도
          과소적합  최적  과적합  보간   과매개변수
                              임계점

이중 하강의 함의

관찰	의미
보간 임계점 이후 오류 감소	매우 큰 모델은 다시 잘 동작할 수 있음
암묵적 정규화의 역할	SGD, 네트워크 구조 등이 자동으로 복잡도 제어
오컴의 면도날 수정	”단순한 모델”의 의미가 파라미터 수만으로 결정되지 않음

5. 실무적 지침

단순한 모델부터 시작: 복잡도를 점진적으로 증가
교차 검증: 적절한 복잡도를 데이터에서 판단
정규화 활용: 복잡한 모델도 유효 복잡도를 제어 가능
과소적합과 과적합 모두 경계: 너무 단순해도, 너무 복잡해도 문제
문맥 고려: 딥러닝 시대에는 과매개변수화가 필연적이므로 암묵적 정규화에 의존

상세 내용

복잡도 vs 성능 트레이드오프 곡선

복잡도 vs 성능 트레이드오프 곡선 다이어그램

MDL 원리 심화 (Minimum Description Length)

MDL은 Jorma Rissanen(1978)이 제안한 프레임워크로, 학습 문제를 데이터 압축 문제로 재해석한다.

2-파트 MDL (Two-Part MDL)

기본 형태는 모델과 잔차를 각각 인코딩한다:

$\hat{M} = \arg\min_{M} \left[ L(M) + L(D|M) \right]$

$L(M)$ : 모델의 코드 길이. 파라미터가 많을수록, 각 파라미터의 정밀도가 높을수록 길어진다.
$L(D|M)$ : 모델이 설명하지 못하는 잔차의 코드 길이. 모델이 정확할수록 짧아진다.

예를 들어, 다항 회귀에서:

차수 1 (직선): $L(M)$ 은 짧지만 데이터를 잘 맞추지 못하면 $L(D|M)$ 이 길다
차수 20: $L(M)$ 이 길어지지만 $L(D|M)$ 은 매우 짧을 수 있다
최적 차수: 둘의 합이 최소인 지점

정규화된 MDL (Refined MDL)

현대적 MDL은 정규화된 최대 우도(Normalized Maximum Likelihood, NML)를 사용하여 모델 클래스 수준에서 비교한다:

$\text{NML}(x^n) = \frac{P(x^n | \hat{\theta}(x^n))}{\int P(y^n | \hat{\theta}(y^n)) dy^n}$

분모의 적분은 모델 복잡도(parametric complexity)를 자동으로 반영한다.

구조적 위험 최소화 (SRM) 연결

SRM은 Vapnik이 제안한 프레임워크로, 오컴의 면도날을 VC 이론과 직접 연결한다.

SRM 절차

가설 공간을 복잡도 순서대로 중첩 구조(nested structure)로 배열한다:

$H_1 \subset H_2 \subset H_3 \subset \cdots$

여기서 $\text{VC}(H_1) \le \text{VC}(H_2) \le \text{VC}(H_3) \le \cdots$

각 $H_k$ 에서 경험적 위험을 최소화하는 가설 $h_k$ 를 찾는다
구조적 위험(경험적 위험 + 복잡도 페널티)이 최소인 $H_k$ 를 선택한다

SRM과 정규화의 등가성

SRM에서 가설 공간 선택은 정규화 강도 선택과 수학적으로 등가이다:

SRM 관점	정규화 관점
$H_k$ 선택	$\lambda$ 선택
VC 차원 $d_k$ 제한	가중치 놈(norm) 제한
중첩 가설 공간	정규화 경로(regularization path)

예를 들어, SVM에서 마진 최대화는 SRM의 구체적 실현이다. 마진이 클수록 효과적 VC 차원이 줄어들며, 이는 더 단순한 가설 공간 $H_k$ 를 선택하는 것에 대응한다.

MDL, SRM, 베이지안의 삼각 관계

세 프레임워크는 서로 다른 관점에서 오컴의 면도날을 형식화하지만, 많은 경우 동일한 모델 선택 결과로 수렴한다:

프레임워크	핵심 원리	복잡도 페널티의 출처	대표 기준
MDL	데이터 압축	코드 길이	NML, 2-파트 코딩
SRM	최악의 경우 일반화	VC 차원 기반 바운드	$R_{\text{emp}} + \sqrt{d/n}$
베이지안	사후 확률 최대화	사전 분포를 통한 자동 페널티	BIC, 주변 우도

세 접근 모두 “모델 적합도와 모델 복잡도의 균형”이라는 동일한 핵심 원리를 공유한다.

언제 사용하는가

오컴의 면도날은 모델 선택의 지침 원리이다:

비슷한 성능의 모델 중 선택할 때 —> 단순한 것 선택
모델 복잡도를 결정할 때 —> 정규화, 교차 검증 활용
베이스라인 모델 설정 시 —> 간단한 모델부터 시작
결과 해석이 중요한 경우 —> 해석 가능한 단순 모델 선호

실전 사례: Double Descent의 발견

2019년, Belkin et al.은 논문 “Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-off”에서 이중 하강(Double Descent) 현상을 체계적으로 보고했다. 이 발견은 오컴의 면도날에 대한 현대적 도전이자, 동시에 그 원칙을 더 깊이 이해하게 만든 계기였다.

전통적으로 ML 이론은 “모델 복잡도가 증가하면 어느 시점부터 과적합이 시작되므로, 적절히 단순한 모델을 선택해야 한다”고 가르쳤다. 그런데 Belkin et al.은 놀라운 사실을 발견했다:

보간 임계점(Interpolation Threshold): 모델이 훈련 데이터를 완벽히 암기할 수 있는 지점에서 테스트 오류가 최대가 된다
그 이후 오류가 다시 감소: 모델을 더 복잡하게 만들면(파라미터를 더 추가하면) 테스트 오류가 다시 줄어든다
매우 큰 모델이 더 나은 일반화를 보인다: 이는 “단순한 모델이 낫다”는 전통적 오컴의 면도날과 표면적으로 모순된다

이 발견의 함의는 심오하다. 오컴의 면도날이 틀린 것이 아니라, “복잡도”의 정의를 재고해야 한다는 것이다. 파라미터 수는 모델 복잡도의 불완전한 척도이며, SGD의 암묵적 정규화, 네트워크 구조의 귀납적 편향 등이 효과적 복잡도(Effective Complexity)를 파라미터 수보다 훨씬 낮게 유지한다. 현대 딥러닝에서 오컴의 면도날은 “파라미터를 줄여라”가 아니라 “효과적 복잡도를 제어하라”로 재해석되어야 한다.

흔한 오해와 함정

1. “항상 가장 간단한 모델을 써야 한다”

아니다. “데이터를 동등하게 잘 설명하는 모델 중” 가장 단순한 것이다. 단순한 모델이 데이터를 잘 설명하지 못하면 더 복잡한 모델이 필요하다.

2. “파라미터 수가 적은 것이 항상 단순하다”

이중 하강 현상에서 보듯이, 매우 큰 모델이 더 좋은 일반화를 보일 수 있다. “복잡도”는 파라미터 수만으로 결정되지 않는다.

3. “오컴의 면도날은 수학적으로 증명되었다”

엄밀히 말하면 원리(principle)이지 정리(theorem)가 아니다. 다만 MDL, SRM, 베이지안 프레임워크 등이 이론적 지지를 제공한다.

4. “딥러닝 시대에 오컴의 면도날은 쓸모없다”

형태가 변했을 뿐이다. 정규화, 드롭아웃, 조기 종료 등은 모두 오컴의 면도날의 현대적 구현이다.

다른 주제와의 연결

VC 차원: 모델 복잡도의 이론적 척도
정규화 이론: 오컴의 면도날의 실질적 구현
과적합과 과소적합: 복잡도 선택의 실질적 결과
No Free Lunch: NFL은 “최고 모델이 없다”고 하고, 오컴은 “단순한 것을 선호하라”고 함 — 상호보완적
하이퍼파라미터 최적화: 적절한 복잡도를 찾는 실무 방법

자주 묻는 면접 질문

ML에서 오컴의 면도날이란?
- 데이터를 동등하게 잘 설명하는 모델들 중 가장 단순한 것을 선호하는 원리
MDL과 오컴의 면도날의 관계는?
- MDL은 오컴의 면도날을 형식화한 것: 모델 기술 길이 + 데이터 기술 길이의 합을 최소화
이중 하강이 오컴의 면도날에 도전하는 이유는?
- 전통적으로 복잡도가 증가하면 과적합이 예상되지만, 매우 큰 모델에서 다시 성능이 개선됨. 파라미터 수만으로 복잡도를 측정하는 것이 부적절할 수 있음.
베이지안 프레임워크에서 오컴의 면도날이 자연스럽게 나타나는 이유는?
- 복잡한 모델은 넓은 파라미터 공간에 사전 확률을 분산시켜야 하므로, 주변 우도에서 자동으로 패널티를 받음

용어 정리

영어	한국어
Occam’s Razor	오컴의 면도날
Minimum Description Length (MDL)	최소 기술 길이
Structural Risk Minimization (SRM)	구조적 위험 최소화
Model Complexity	모델 복잡도
Double Descent	이중 하강
Interpolation Threshold	보간 임계점
Marginal Likelihood	주변 우도
Effective Degrees of Freedom	유효 자유도
AIC / BIC	아카이케/베이지안 정보 기준

참고 자료

Rissanen (1978) - “Modeling by Shortest Data Description” (MDL)
Vapnik (1995) - The Nature of Statistical Learning Theory (SRM)
MacKay (2003) - Information Theory, Inference, and Learning Algorithms (Bayesian Occam)
Belkin et al. (2019) - “Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-off” (Double Descent)
Nakkiran et al. (2021) - “Deep Double Descent: Where Bigger Models and More Data Can Hurt”