오컴의 면도날 (Occam's Razor in ML)¶
난이도: 중급
선수 지식: PAC 학습, VC 차원 기초
관련 문서: VC 차원 | 정규화 이론 | 과적합과 과소적합 | No Free Lunch
개요¶
오컴의 면도날(Occam's Razor)은 14세기 윌리엄 오컴이 제안한 원리로, "데이터를 동등하게 잘 설명하는 모델들 중에서 가장 단순한 것을 선호하라"는 것이다.
머신러닝에서 이 원리는 다양한 형태로 나타난다: - 정규화 (모델 복잡도 제약) - 모델 선택 기준 (AIC, BIC) - 구조적 위험 최소화 (SRM) - 최소 기술 길이 원리 (MDL) - 베이지안 모델 비교
핵심 개념¶
1. 기본 원리¶
"필요 이상으로 개체를 늘리지 말라" (Entities should not be multiplied beyond necessity)
ML에서의 해석: 데이터를 충분히 잘 설명하는 가장 단순한 모델이 새로운 데이터에도 가장 잘 일반화할 가능성이 높다.
이것은 경험적 원칙이지, 수학적 정리가 아니다. 하지만 여러 이론적 프레임워크가 이 원리를 지지한다.
2. 형식적 연결¶
최소 기술 길이 (Minimum Description Length, MDL)¶
최적의 모델은 총 기술 길이를 최소화한다:
- \(L(\text{model})\): 모델 자체를 기술하는 데 필요한 비트 수 (복잡도)
- \(L(\text{data} | \text{model})\): 모델이 주어졌을 때 데이터를 기술하는 데 필요한 비트 수 (오류)
| 모델 유형 | 모델 기술 길이 | 데이터 기술 길이 | 비고 |
|---|---|---|---|
| 너무 단순 | 짧음 | 길음 (큰 오류) | 과소적합 |
| 적정 | 중간 | 중간 | 최적 |
| 너무 복잡 | 길음 | 짧음 (작은 오류) | 과적합 |
베이지안 해석¶
베이지안 모델 비교에서 오컴의 면도날이 자연스럽게 내장되어 있다:
- 단순한 모델은 더 높은 사전 확률 \(P(M)\)을 가짐
- 주변 우도 (marginal likelihood) \(P(\text{data}|M) = \int P(\text{data}|\theta, M)P(\theta|M)d\theta\)는 자연스럽게 복잡도를 페널티함
- 복잡한 모델은 파라미터 공간이 넓어 각 파라미터 설정의 사전 확률이 낮아짐
- "자동 오컴의 면도날" (Automatic Occam's Razor)
구조적 위험 최소화 (SRM)¶
- \(R_{\text{emp}}(h)\): 경험적 위험 (훈련 오류)
- 두 번째 항: 복잡도 페널티 (VC 차원 \(d\)에 의존)
- 둘의 합을 최소화 = 오컴의 면도날
정보 기준¶
| 기준 | 수식 | 특징 |
|---|---|---|
| AIC | \(-2\ln L + 2k\) | 파라미터 수 \(k\)에 비례하는 페널티 |
| BIC | \(-2\ln L + k\ln n\) | 데이터 크기 \(n\)도 반영, 더 강한 페널티 |
\(L\): 최대 우도, \(k\): 파라미터 수, \(n\): 데이터 수
3. 모델 복잡도 척도¶
| 척도 | 설명 | 사용처 |
|---|---|---|
| 파라미터 수 | 가장 직관적, 항상 정확하지는 않음 | 일반적 |
| VC 차원 | 가설 클래스의 표현력 | 이론적 분석 |
| Rademacher 복잡도 | 데이터 의존적 복잡도 | 일반화 바운드 |
| 기술 길이 | 모델을 인코딩하는 데 필요한 비트 | MDL |
| 자유도 | 유효 파라미터 수 | 정규화된 모델 |
| 유효 파라미터 수 | 정규화 고려한 실질적 복잡도 | Ridge 등 |
4. 이중 하강 현상 (Double Descent)¶
오컴의 면도날에 대한 현대적 도전:
전통적 관점¶
테스트 오류가 U자형: 과소적합 --> 최적 --> 과적합
현대적 관찰¶
과매개변수화된(overparameterized) 모델에서, 보간 임계점(interpolation threshold) 이후 테스트 오류가 다시 감소:
테스트 오류
│
│ \ /\
│ \ / \
│ \ ___ / \___________
│ \___/
│
└───────────────────────────────── 모델 복잡도
과소적합 최적 과적합 보간 과매개변수
임계점
이중 하강의 함의¶
| 관찰 | 의미 |
|---|---|
| 보간 임계점 이후 오류 감소 | 매우 큰 모델은 다시 잘 동작할 수 있음 |
| 암묵적 정규화의 역할 | SGD, 네트워크 구조 등이 자동으로 복잡도 제어 |
| 오컴의 면도날 수정 | "단순한 모델"의 의미가 파라미터 수만으로 결정되지 않음 |
5. 실무적 지침¶
- 단순한 모델부터 시작: 복잡도를 점진적으로 증가
- 교차 검증: 적절한 복잡도를 데이터에서 판단
- 정규화 활용: 복잡한 모델도 유효 복잡도를 제어 가능
- 과소적합과 과적합 모두 경계: 너무 단순해도, 너무 복잡해도 문제
- 문맥 고려: 딥러닝 시대에는 과매개변수화가 필연적이므로 암묵적 정규화에 의존
상세 내용¶
복잡도 vs 성능 트레이드오프 곡선¶
graph TD
subgraph curve["모델 복잡도에 따른 오류 변화"]
direction LR
A["<b>과소적합 영역</b><br/>높은 편향, 낮은 분산<br/>훈련·테스트 오류 모두 높음"]
B["<b>최적 영역</b><br/>편향-분산 균형<br/>테스트 오류 최소"]
C["<b>과적합 영역</b><br/>낮은 편향, 높은 분산<br/>훈련 오류↓ 테스트 오류↑"]
A -->|"복잡도 증가 →"| B
B -->|"복잡도 증가 →"| C
end
subgraph occam["오컴의 면도날 적용"]
D["단순한 모델에서 시작"]
E["성능이 개선되는 동안 복잡도 증가"]
F["테스트 성능이 악화되면 멈춤"]
D --> E --> F
end
curve --- occam
style A fill:#ffcdd2
style B fill:#c8e6c9
style C fill:#ffcdd2
style D fill:#e3f2fd
style E fill:#e3f2fd
style F fill:#e3f2fd MDL 원리 심화 (Minimum Description Length)¶
MDL은 Jorma Rissanen(1978)이 제안한 프레임워크로, 학습 문제를 데이터 압축 문제로 재해석한다.
2-파트 MDL (Two-Part MDL)¶
기본 형태는 모델과 잔차를 각각 인코딩한다:
- \(L(M)\): 모델의 코드 길이. 파라미터가 많을수록, 각 파라미터의 정밀도가 높을수록 길어진다.
- \(L(D|M)\): 모델이 설명하지 못하는 잔차의 코드 길이. 모델이 정확할수록 짧아진다.
예를 들어, 다항 회귀에서: - 차수 1 (직선): \(L(M)\)은 짧지만 데이터를 잘 맞추지 못하면 \(L(D|M)\)이 길다 - 차수 20: \(L(M)\)이 길어지지만 \(L(D|M)\)은 매우 짧을 수 있다 - 최적 차수: 둘의 합이 최소인 지점
정규화된 MDL (Refined MDL)¶
현대적 MDL은 정규화된 최대 우도(Normalized Maximum Likelihood, NML)를 사용하여 모델 클래스 수준에서 비교한다:
분모의 적분은 모델 복잡도(parametric complexity)를 자동으로 반영한다.
구조적 위험 최소화 (SRM) 연결¶
SRM은 Vapnik이 제안한 프레임워크로, 오컴의 면도날을 VC 이론과 직접 연결한다.
SRM 절차¶
- 가설 공간을 복잡도 순서대로 중첩 구조(nested structure)로 배열한다:
여기서 \(\text{VC}(H_1) \le \text{VC}(H_2) \le \text{VC}(H_3) \le \cdots\)
- 각 \(H_k\)에서 경험적 위험을 최소화하는 가설 \(h_k\)를 찾는다
- 구조적 위험(경험적 위험 + 복잡도 페널티)이 최소인 \(H_k\)를 선택한다
SRM과 정규화의 등가성¶
SRM에서 가설 공간 선택은 정규화 강도 선택과 수학적으로 등가이다:
| SRM 관점 | 정규화 관점 |
|---|---|
| \(H_k\) 선택 | \(\lambda\) 선택 |
| VC 차원 \(d_k\) 제한 | 가중치 놈(norm) 제한 |
| 중첩 가설 공간 | 정규화 경로(regularization path) |
예를 들어, SVM에서 마진 최대화는 SRM의 구체적 실현이다. 마진이 클수록 효과적 VC 차원이 줄어들며, 이는 더 단순한 가설 공간 \(H_k\)를 선택하는 것에 대응한다.
MDL, SRM, 베이지안의 삼각 관계¶
세 프레임워크는 서로 다른 관점에서 오컴의 면도날을 형식화하지만, 많은 경우 동일한 모델 선택 결과로 수렴한다:
| 프레임워크 | 핵심 원리 | 복잡도 페널티의 출처 | 대표 기준 |
|---|---|---|---|
| MDL | 데이터 압축 | 코드 길이 | NML, 2-파트 코딩 |
| SRM | 최악의 경우 일반화 | VC 차원 기반 바운드 | \(R_{\text{emp}} + \sqrt{d/n}\) |
| 베이지안 | 사후 확률 최대화 | 사전 분포를 통한 자동 페널티 | BIC, 주변 우도 |
세 접근 모두 "모델 적합도와 모델 복잡도의 균형"이라는 동일한 핵심 원리를 공유한다.
언제 사용하는가¶
오컴의 면도날은 모델 선택의 지침 원리이다:
- 비슷한 성능의 모델 중 선택할 때 --> 단순한 것 선택
- 모델 복잡도를 결정할 때 --> 정규화, 교차 검증 활용
- 베이스라인 모델 설정 시 --> 간단한 모델부터 시작
- 결과 해석이 중요한 경우 --> 해석 가능한 단순 모델 선호
흔한 오해와 함정¶
1. "항상 가장 간단한 모델을 써야 한다"¶
- 아니다. "데이터를 동등하게 잘 설명하는 모델 중" 가장 단순한 것이다. 단순한 모델이 데이터를 잘 설명하지 못하면 더 복잡한 모델이 필요하다.
2. "파라미터 수가 적은 것이 항상 단순하다"¶
- 이중 하강 현상에서 보듯이, 매우 큰 모델이 더 좋은 일반화를 보일 수 있다. "복잡도"는 파라미터 수만으로 결정되지 않는다.
3. "오컴의 면도날은 수학적으로 증명되었다"¶
- 엄밀히 말하면 원리(principle)이지 정리(theorem)가 아니다. 다만 MDL, SRM, 베이지안 프레임워크 등이 이론적 지지를 제공한다.
4. "딥러닝 시대에 오컴의 면도날은 쓸모없다"¶
- 형태가 변했을 뿐이다. 정규화, 드롭아웃, 조기 종료 등은 모두 오컴의 면도날의 현대적 구현이다.
다른 주제와의 연결¶
- VC 차원: 모델 복잡도의 이론적 척도
- 정규화 이론: 오컴의 면도날의 실질적 구현
- 과적합과 과소적합: 복잡도 선택의 실질적 결과
- No Free Lunch: NFL은 "최고 모델이 없다"고 하고, 오컴은 "단순한 것을 선호하라"고 함 -- 상호보완적
- 하이퍼파라미터 최적화: 적절한 복잡도를 찾는 실무 방법
자주 묻는 면접 질문¶
- ML에서 오컴의 면도날이란?
-
데이터를 동등하게 잘 설명하는 모델들 중 가장 단순한 것을 선호하는 원리
-
MDL과 오컴의 면도날의 관계는?
-
MDL은 오컴의 면도날을 형식화한 것: 모델 기술 길이 + 데이터 기술 길이의 합을 최소화
-
이중 하강이 오컴의 면도날에 도전하는 이유는?
-
전통적으로 복잡도가 증가하면 과적합이 예상되지만, 매우 큰 모델에서 다시 성능이 개선됨. 파라미터 수만으로 복잡도를 측정하는 것이 부적절할 수 있음.
-
베이지안 프레임워크에서 오컴의 면도날이 자연스럽게 나타나는 이유는?
- 복잡한 모델은 넓은 파라미터 공간에 사전 확률을 분산시켜야 하므로, 주변 우도에서 자동으로 패널티를 받음
용어 정리¶
| 영어 | 한국어 |
|---|---|
| Occam's Razor | 오컴의 면도날 |
| Minimum Description Length (MDL) | 최소 기술 길이 |
| Structural Risk Minimization (SRM) | 구조적 위험 최소화 |
| Model Complexity | 모델 복잡도 |
| Double Descent | 이중 하강 |
| Interpolation Threshold | 보간 임계점 |
| Marginal Likelihood | 주변 우도 |
| Effective Degrees of Freedom | 유효 자유도 |
| AIC / BIC | 아카이케/베이지안 정보 기준 |
참고 자료¶
- Rissanen (1978) - "Modeling by Shortest Data Description" (MDL)
- Vapnik (1995) - The Nature of Statistical Learning Theory (SRM)
- MacKay (2003) - Information Theory, Inference, and Learning Algorithms (Bayesian Occam)
- Belkin et al. (2019) - "Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-off" (Double Descent)
- Nakkiran et al. (2021) - "Deep Double Descent: Where Bigger Models and More Data Can Hurt"