모델 선택 기준 (Model Selection Criteria)

핵심 요약: AIC는 “이 모델이 새 데이터를 얼마나 잘 예측할까?”를, BIC는 “데이터를 가장 잘 설명하는 가장 단순한 모델은?”을 묻는다. 데이터가 크면 BIC가 더 단순한 모델을 선호하고, 데이터가 작으면 AIC가 예측에 유리하다. 두 기준이 다른 모델을 선택하는 것은 버그가 아니라, 서로 다른 질문을 던지기 때문이다.

개요

여러 후보 모델 중 어떤 것을 선택할지는 ML의 핵심 문제다. 교차 검증이 가장 범용적인 방법이지만, 계산 비용이 높다. 정보 기준(Information Criteria, 모델의 적합도와 복잡도를 동시에 고려하는 점수)은 단 한 번의 모델 적합으로 일반화 성능(Generalization Performance, 새 데이터에서의 성능)을 근사하는 빠른 대안이다.

이 문서에서는 AIC, BIC, MDL의 수학적 정의, 직관적 해석, 그리고 교차 검증과의 관계를 다룬다.

탄생 배경

1974년, 일본의 통계학자 Hirotugu Akaike는 혁명적인 통찰을 논문으로 발표했다: “테스트 오류를 훈련 오류에서 추정할 수 있다.” 당시 모델 선택은 주로 연구자의 직관이나 도메인 지식에 의존했는데, Akaike는 정보 이론(Information Theory)의 Kullback-Leibler 발산을 활용하여, 모델의 훈련 적합도와 복잡도 사이의 균형을 단일 숫자로 정량화하는 방법을 제시했다. 이것이 AIC(Akaike Information Criterion)의 탄생이다.

4년 후인 1978년, Gideon Schwarz는 완전히 다른 철학적 관점에서 같은 문제에 접근했다. 베이지안 프레임워크에서 “데이터가 주어졌을 때, 어떤 모델이 가장 높은 사후 확률(posterior probability)을 가지는가?”라는 질문을 던지고, 모델 증거(model evidence)의 근사로서 BIC(Bayesian Information Criterion)를 유도했다. AIC가 “미래 예측을 가장 잘 하는 모델”을 찾는다면, BIC는 “이 데이터를 생성했을 가능성이 가장 높은 모델”을 찾는다.

이 두 기준의 등장은 모델 선택을 주관적 판단에서 체계적 비교로 전환시킨 분수령이었다. 비유하자면, AIC는 “무한한 테스트 데이터가 있다면 이 모델이 얼마나 잘 예측할까?”라는 질문이고, BIC는 “이 데이터를 가장 잘 설명하는 가장 단순한 모델은?”이라는 질문이다. 같은 데이터를 보고도 서로 다른 질문을 던지기 때문에, 두 기준이 다른 모델을 선택하는 것은 버그가 아니라 설계에 의한 것이다.

핵심 개념

정보 기준의 기본 원리

모든 정보 기준은 같은 구조를 따른다:

$\text{정보 기준} = -2 \ln(\hat{L}) + \text{복잡도 페널티}$

$\hat{L}$ : 최대화된 우도(maximized likelihood)
첫째 항: 모델의 적합도(goodness of fit) — 작을수록 데이터를 잘 설명
둘째 항: 복잡도 페널티 — 파라미터가 많을수록 증가
목표: 정보 기준을 최소화하는 모델 선택

Akaike Information Criterion (AIC)

$\text{AIC} = 2k - 2\ln(\hat{L})$

$k$ : 모델의 추정 파라미터 수(모델이 학습하는 숫자의 개수)
$\hat{L}$ : 최대우도(Maximum Likelihood, 데이터를 관측할 확률을 최대화한 값)

숫자로 이해하기

두 회귀 모델을 비교한다고 하자 (데이터 100개):

모델 파라미터 수 ( $k$ ) $-2\ln(\hat{L})$ AIC BIC
모델 A (단순) 3 200 200 + 2x3 = 206 200 + 3xln(100) = 213.8
모델 B (복잡) 8 190 190 + 2x8 = 206 190 + 8xln(100) = 226.8

AIC 기준: 206 vs 206 → 동점 (두 모델이 비슷한 예측 성능)

BIC 기준: 213.8 vs 226.8 → 모델 A 선택 (단순한 모델이 이김)

BIC는 $\ln(100) \approx 4.6$ 으로 파라미터당 페널티가 AIC(2)의 2배 이상이어서, 복잡한 모델에 더 엄격하다.

모델	파라미터 수 ( $k$ )	$-2\ln(\hat{L})$	AIC	BIC
모델 A (단순)	3	200	200 + 2x3 = 206	200 + 3xln(100) = 213.8
모델 B (복잡)	8	190	190 + 2x8 = 206	190 + 8xln(100) = 226.8

유도: KL-발산(Kullback-Leibler divergence, 두 확률분포의 차이를 측정하는 도구) 최소화에서 유도된다. AIC는 모델과 실제 데이터 생성 분포 사이의 KL-발산의 추정치를 최소화한다. 비유하자면, AIC는 “이 지도가 실제 지형과 얼마나 다른가?”를 측정하되, 지도의 복잡도(등고선 수)에 대한 벌점을 부과하는 것과 같다.

핵심 성질:

LOOCV와 점근적으로 동등 (Asymptotically equivalent to LOO-CV)
예측 중심: 새 데이터에 대한 예측 성능을 최적화
일관적(consistent)이지 않음: $n \to \infty$ 에서 참 모델을 선택한다고 보장하지 않음
대신 효율적(efficient): 유한 표본에서 예측 오차를 더 낮추는 경향

소표본 보정 — AICc:

$\text{AIC}_c = \text{AIC} + \frac{2k^2 + 2k}{n - k - 1}$

$n$ 이 $k$ 에 비해 작을 때 (대략 $n/k < 40$ ) AICc를 사용해야 한다. $n \to \infty$ 이면 AICc → AIC.

Bayesian Information Criterion (BIC)

$\text{BIC} = k \ln(n) - 2\ln(\hat{L})$

$k$ : 파라미터 수, $n$ : 샘플 수

유도: 베이지안 모델 증거(Bayesian model evidence)의 근사. Schwarz (1978)가 유도.

핵심 성질:

$n > e^2 \approx 7.4$ 이면 AIC보다 더 강한 복잡도 페널티 → 더 단순한 모델 선호
일관적(consistent): $n \to \infty$ 에서 후보 중 참 모델이 있으면 이를 선택
AIC보다 예측 효율(prediction efficiency)은 낮을 수 있음

AIC vs BIC 페널티 비교:

$n$	AIC 페널티 (파라미터당)	BIC 페널티 (파라미터당)
7	2	1.95
8	2	2.08
50	2	3.91
100	2	4.61
1000	2	6.91

$n$ 이 커질수록 BIC의 페널티가 AIC보다 훨씬 커져서, BIC는 더 단순한 모델을 선택한다.

Minimum Description Length (MDL, 최소 기술 길이)

정보 이론(Rissanen)에서 유래한 원리:

$\text{Total Length} = L(M) + L(D|M)$

$L(M)$ : 모델을 기술하는 데 필요한 코드 길이
$L(D|M)$ : 모델이 주어졌을 때 데이터를 기술하는 코드 길이

직관: 데이터를 가장 짧게 기술할 수 있는 모델이 최선의 모델이다. 이를 zip 파일 비유로 이해할 수 있다: 데이터를 압축할 때, 압축 알고리즘(모델)의 크기 + 압축된 데이터의 크기를 합산한 총 파일 크기가 가장 작은 알고리즘이 최선이다.

Two-part MDL: 위의 기본 형태
Normalized Maximum Likelihood (NML): 현대적 정제 버전
BIC와의 관계: BIC는 MDL의 근사이다

상세 내용

AIC vs BIC: 언제 무엇을 사용하는가

기준	AIC	BIC
목적	예측 성능 최적화	참 모델 식별
복잡도 페널티	약함 ( $2k$ )	강함 ( $k \ln n$ )
이론적 성질	효율적 (efficient)	일관적 (consistent)
모델 선택 경향	더 복잡한 모델	더 단순한 모델
적합한 상황	예측이 목적일 때	해석/설명이 목적일 때
CV와의 관계	LOO-CV에 점근적 동등	—

실전 지침:

“이 모델로 예측을 해야 한다” → AIC
“데이터를 생성한 진짜 모델을 찾고 싶다” → BIC
의심스러우면 두 모두 계산하고, 둘 다 같은 모델을 선택하면 확신을 가진다

정보 기준 vs 교차 검증

비교 항목	정보 기준 (IC)	교차 검증 (CV)
계산 비용	매우 낮음 (1회 적합)	높음 ( $k$ 회 적합)
가정	모수적 모델, 올바른 우도	없음 (비모수적)
적용 범위	우도 기반 모델에 한정	모든 모델
소표본	AICc로 보정 가능	분산이 높음
비중첩 모델	비교 어려울 수 있음	자유롭게 비교

실전 권장:

교차 검증을 주요(primary) 방법으로 사용
정보 기준은 보조/빠른 스크리닝 용도로 활용
후보 모델이 매우 많을 때, 먼저 IC로 후보를 줄이고, 최종 선택은 CV로

정보 기준이 실패하는 경우

비중첩 모델 (Non-nested models): 구조가 완전히 다른 모델 간 비교에서 IC가 오도할 수 있다
잘못 지정된 우도 (Misspecified likelihood): 우도 함수가 부정확하면 IC 자체가 부정확
소표본: AIC/BIC의 점근적 근사가 부정확할 수 있다 — AICc 사용 또는 CV로 전환
비모수 모델: 파라미터 수 $k$ 가 명확하지 않은 모델 (예: 비모수 방법, 신경망의 효과적 파라미터 수)

모델 선택 의사결정 흐름 (Decision Flowchart)

실무에서 모델을 선택할 때 고려해야 하는 주요 분기점을 정리한 흐름도이다.

모델 복잡도에 따른 AIC/BIC 변화 (시각적 설명)

AIC / BIC 값
 │
 │  ╲                              ╱  ← BIC (강한 페널티)
 │   ╲        ╌╌╌╌╌╌╌╌╌╌        ╱
 │    ╲     ╱              ╲   ╱
 │     ╲  ╱                  ╲╱  ← BIC 최적점
 │      ╲╱  ← AIC 최적점
 │
 │         ╲                     ╱  ← AIC (약한 페널티)
 │          ╲╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╱
 │
 └──────────────────────────────── 모델 복잡도 (파라미터 수) →

AIC 최적점이 BIC 최적점보다 오른쪽(더 복잡한 모델)에 위치하는 경향이 있다.

언제 사용하는가

우도 기반 모델 (GLM, 혼합 모델 등)의 빠른 모델 선택 → AIC/BIC
예측 목적의 모델 선택 → AIC (또는 AICc)
참 모델 식별 / 해석 목적 → BIC
범용적이고 가정 없는 모델 비교 → 교차 검증
대규모 모델 탐색 후 최종 비교 → IC로 스크리닝 → CV로 최종 선택

실전 사례

유전학 연구에서 AIC vs BIC 선택이 결론을 뒤집은 사례

유전체 연관 연구(GWAS, Genome-Wide Association Study)에서 특정 유전자 변이와 질병의 관계를 모델링할 때, AIC와 BIC의 선택이 논문의 핵심 결론을 뒤집은 사례가 보고되었다.

한 유전학 연구팀이 특정 질병에 대한 유전적 위험 인자를 탐색하면서, 후보 SNP(Single Nucleotide Polymorphism) 조합 모델들을 비교했다. AIC 기준으로는 12개의 SNP를 포함한 복잡한 상호작용 모델이 최적으로 선택되었고, 이를 근거로 “다중 유전자 상호작용이 질병 위험을 결정한다”는 결론을 내렸다. 그러나 BIC 기준으로는 3개의 SNP만 포함한 단순 모델이 최적이었으며, 나머지 9개 SNP의 효과는 노이즈로 판단되었다.

이 차이가 발생한 근본 원인은 표본 크기와 복잡도 페널티의 상호작용에 있다. 해당 연구의 표본 크기( $n \approx 5{,}000$ )에서 BIC의 파라미터당 페널티는 $\ln(5000) \approx 8.5$ 로, AIC의 페널티( $2$ )보다 4배 이상 강했다. AIC는 예측 성능을 최적화하므로 약한 효과의 변수도 포함하는 경향이 있지만, BIC는 “참 모델”을 식별하려 하므로 통계적으로 불확실한 변수를 제거했다.

교훈: 유전학처럼 해석과 인과 관계 규명이 목적인 분야에서는 BIC가 더 보수적이고 재현 가능한(reproducible) 결론을 제공한다. 반면, 질병 위험 예측 모델을 만드는 것이 목적이라면 AIC가 더 나은 예측 성능을 줄 수 있다. 두 기준이 같은 모델을 선택하면 확신을 가지되, 다른 모델을 선택하면 분석 목적을 명확히 하여 기준을 결정해야 한다.

흔한 오해와 함정

“AIC/BIC가 낮으면 절대적으로 좋은 모델이다” — IC는 후보 모델 간의 상대적 비교 도구다. IC 값 자체는 모델의 절대적 품질을 말하지 않는다.
“AIC가 항상 BIC보다 좋다 (또는 그 반대)” — 목적에 따라 다르다. 예측이면 AIC, 해석이면 BIC. 둘 다 계산하여 비교하라.
“파라미터 수만 세면 된다” — 정규화된 모델, 비모수 모델 등에서는 “효과적 파라미터 수(effective number of parameters)“를 사용해야 하며, 이는 명시적 파라미터 수와 다를 수 있다.
“IC만으로 충분하다” — IC는 점근적 근사이므로, 소표본이나 비표준 모델에서는 부정확할 수 있다. 가능하면 CV로 검증하라.
“AIC와 BIC가 다른 모델을 선택하면 문제다” — 이는 자연스러운 현상이다. 두 기준의 철학이 다르기 때문이다. 선택은 분석 목적에 따라 결정한다.

다른 주제와의 연결

교차 검증: 정보 기준의 범용적 대안; AIC는 LOOCV의 점근적 동등
편향-분산 트레이드오프: 정보 기준의 복잡도 페널티는 편향-분산 균형을 추구
회귀 지표: Adjusted $R^2$ 와 정보 기준의 관계 — 둘 다 복잡도를 벌함
보정 (Calibration): 우도 기반 지표 (Log Loss)와 정보 기준의 관계