콘텐츠로 이동

모델 선택 기준 (Model Selection Criteria)

핵심 요약: AIC는 “이 모델이 새 데이터를 얼마나 잘 예측할까?”를, BIC는 “데이터를 가장 잘 설명하는 가장 단순한 모델은?”을 묻는다. 데이터가 크면 BIC가 더 단순한 모델을 선호하고, 데이터가 작으면 AIC가 예측에 유리하다. 두 기준이 다른 모델을 선택하는 것은 버그가 아니라, 서로 다른 질문을 던지기 때문이다.

여러 후보 모델 중 어떤 것을 선택할지는 ML의 핵심 문제다. 교차 검증이 가장 범용적인 방법이지만, 계산 비용이 높다. 정보 기준(Information Criteria, 모델의 적합도와 복잡도를 동시에 고려하는 점수)은 단 한 번의 모델 적합으로 일반화 성능(Generalization Performance, 새 데이터에서의 성능)을 근사하는 빠른 대안이다.

이 문서에서는 AIC, BIC, MDL의 수학적 정의, 직관적 해석, 그리고 교차 검증과의 관계를 다룬다.


1974년, 일본의 통계학자 Hirotugu Akaike는 혁명적인 통찰을 논문으로 발표했다: “테스트 오류를 훈련 오류에서 추정할 수 있다.” 당시 모델 선택은 주로 연구자의 직관이나 도메인 지식에 의존했는데, Akaike는 정보 이론(Information Theory)의 Kullback-Leibler 발산을 활용하여, 모델의 훈련 적합도와 복잡도 사이의 균형을 단일 숫자로 정량화하는 방법을 제시했다. 이것이 AIC(Akaike Information Criterion)의 탄생이다.

4년 후인 1978년, Gideon Schwarz는 완전히 다른 철학적 관점에서 같은 문제에 접근했다. 베이지안 프레임워크에서 “데이터가 주어졌을 때, 어떤 모델이 가장 높은 사후 확률(posterior probability)을 가지는가?”라는 질문을 던지고, 모델 증거(model evidence)의 근사로서 BIC(Bayesian Information Criterion)를 유도했다. AIC가 “미래 예측을 가장 잘 하는 모델”을 찾는다면, BIC는 “이 데이터를 생성했을 가능성이 가장 높은 모델”을 찾는다.

이 두 기준의 등장은 모델 선택을 주관적 판단에서 체계적 비교로 전환시킨 분수령이었다. 비유하자면, AIC는 “무한한 테스트 데이터가 있다면 이 모델이 얼마나 잘 예측할까?”라는 질문이고, BIC는 “이 데이터를 가장 잘 설명하는 가장 단순한 모델은?”이라는 질문이다. 같은 데이터를 보고도 서로 다른 질문을 던지기 때문에, 두 기준이 다른 모델을 선택하는 것은 버그가 아니라 설계에 의한 것이다.


모든 정보 기준은 같은 구조를 따른다:

정보 기준=2ln(L^)+복잡도 페널티\text{정보 기준} = -2 \ln(\hat{L}) + \text{복잡도 페널티}

  • L^\hat{L}: 최대화된 우도(maximized likelihood)
  • 첫째 항: 모델의 적합도(goodness of fit) — 작을수록 데이터를 잘 설명
  • 둘째 항: 복잡도 페널티 — 파라미터가 많을수록 증가
  • 목표: 정보 기준을 최소화하는 모델 선택

AIC=2k2ln(L^)\text{AIC} = 2k - 2\ln(\hat{L})

  • kk: 모델의 추정 파라미터 수(모델이 학습하는 숫자의 개수)
  • L^\hat{L}: 최대우도(Maximum Likelihood, 데이터를 관측할 확률을 최대화한 값)

두 회귀 모델을 비교한다고 하자 (데이터 100개):

모델파라미터 수 (kk)2ln(L^)-2\ln(\hat{L})AICBIC
모델 A (단순)3200200 + 2x3 = 206200 + 3xln(100) = 213.8
모델 B (복잡)8190190 + 2x8 = 206190 + 8xln(100) = 226.8
  • AIC 기준: 206 vs 206 → 동점 (두 모델이 비슷한 예측 성능)
  • BIC 기준: 213.8 vs 226.8 → 모델 A 선택 (단순한 모델이 이김)

BIC는 ln(100)4.6\ln(100) \approx 4.6으로 파라미터당 페널티가 AIC(2)의 2배 이상이어서, 복잡한 모델에 더 엄격하다.

유도: KL-발산(Kullback-Leibler divergence, 두 확률분포의 차이를 측정하는 도구) 최소화에서 유도된다. AIC는 모델과 실제 데이터 생성 분포 사이의 KL-발산의 추정치를 최소화한다. 비유하자면, AIC는 “이 지도가 실제 지형과 얼마나 다른가?”를 측정하되, 지도의 복잡도(등고선 수)에 대한 벌점을 부과하는 것과 같다.

핵심 성질:

  • LOOCV와 점근적으로 동등 (Asymptotically equivalent to LOO-CV)
  • 예측 중심: 새 데이터에 대한 예측 성능을 최적화
  • 일관적(consistent)이지 않음: nn \to \infty에서 참 모델을 선택한다고 보장하지 않음
  • 대신 효율적(efficient): 유한 표본에서 예측 오차를 더 낮추는 경향

소표본 보정 — AICc:

AICc=AIC+2k2+2knk1\text{AIC}_c = \text{AIC} + \frac{2k^2 + 2k}{n - k - 1}

nnkk에 비해 작을 때 (대략 n/k<40n/k < 40) AICc를 사용해야 한다. nn \to \infty이면 AICc → AIC.


BIC=kln(n)2ln(L^)\text{BIC} = k \ln(n) - 2\ln(\hat{L})

  • kk: 파라미터 수, nn: 샘플 수

유도: 베이지안 모델 증거(Bayesian model evidence)의 근사. Schwarz (1978)가 유도.

핵심 성질:

  • n>e27.4n > e^2 \approx 7.4이면 AIC보다 더 강한 복잡도 페널티 → 더 단순한 모델 선호
  • 일관적(consistent): nn \to \infty에서 후보 중 참 모델이 있으면 이를 선택
  • AIC보다 예측 효율(prediction efficiency)은 낮을 수 있음

AIC vs BIC 페널티 비교:

nnAIC 페널티 (파라미터당)BIC 페널티 (파라미터당)
721.95
822.08
5023.91
10024.61
100026.91

nn이 커질수록 BIC의 페널티가 AIC보다 훨씬 커져서, BIC는 더 단순한 모델을 선택한다.


Minimum Description Length (MDL, 최소 기술 길이)

섹션 제목: “Minimum Description Length (MDL, 최소 기술 길이)”

정보 이론(Rissanen)에서 유래한 원리:

Total Length=L(M)+L(DM)\text{Total Length} = L(M) + L(D|M)

  • L(M)L(M): 모델을 기술하는 데 필요한 코드 길이
  • L(DM)L(D|M): 모델이 주어졌을 때 데이터를 기술하는 코드 길이

직관: 데이터를 가장 짧게 기술할 수 있는 모델이 최선의 모델이다. 이를 zip 파일 비유로 이해할 수 있다: 데이터를 압축할 때, 압축 알고리즘(모델)의 크기 + 압축된 데이터의 크기를 합산한 총 파일 크기가 가장 작은 알고리즘이 최선이다.

  • Two-part MDL: 위의 기본 형태
  • Normalized Maximum Likelihood (NML): 현대적 정제 버전
  • BIC와의 관계: BIC는 MDL의 근사이다

AIC vs BIC: 언제 무엇을 사용하는가

섹션 제목: “AIC vs BIC: 언제 무엇을 사용하는가”
기준AICBIC
목적예측 성능 최적화참 모델 식별
복잡도 페널티약함 (2k2k)강함 (klnnk \ln n)
이론적 성질효율적 (efficient)일관적 (consistent)
모델 선택 경향더 복잡한 모델더 단순한 모델
적합한 상황예측이 목적일 때해석/설명이 목적일 때
CV와의 관계LOO-CV에 점근적 동등

실전 지침:

  • “이 모델로 예측을 해야 한다” → AIC
  • “데이터를 생성한 진짜 모델을 찾고 싶다” → BIC
  • 의심스러우면 두 모두 계산하고, 둘 다 같은 모델을 선택하면 확신을 가진다

비교 항목정보 기준 (IC)교차 검증 (CV)
계산 비용매우 낮음 (1회 적합)높음 (kk회 적합)
가정모수적 모델, 올바른 우도없음 (비모수적)
적용 범위우도 기반 모델에 한정모든 모델
소표본AICc로 보정 가능분산이 높음
비중첩 모델비교 어려울 수 있음자유롭게 비교

실전 권장:

  • 교차 검증을 주요(primary) 방법으로 사용
  • 정보 기준은 보조/빠른 스크리닝 용도로 활용
  • 후보 모델이 매우 많을 때, 먼저 IC로 후보를 줄이고, 최종 선택은 CV로

  1. 비중첩 모델 (Non-nested models): 구조가 완전히 다른 모델 간 비교에서 IC가 오도할 수 있다
  2. 잘못 지정된 우도 (Misspecified likelihood): 우도 함수가 부정확하면 IC 자체가 부정확
  3. 소표본: AIC/BIC의 점근적 근사가 부정확할 수 있다 — AICc 사용 또는 CV로 전환
  4. 비모수 모델: 파라미터 수 kk가 명확하지 않은 모델 (예: 비모수 방법, 신경망의 효과적 파라미터 수)

모델 선택 의사결정 흐름 (Decision Flowchart)

섹션 제목: “모델 선택 의사결정 흐름 (Decision Flowchart)”

실무에서 모델을 선택할 때 고려해야 하는 주요 분기점을 정리한 흐름도이다.

모델 선택 의사결정 흐름 (Decision Flowchart) 다이어그램

모델 복잡도에 따른 AIC/BIC 변화 (시각적 설명)

섹션 제목: “모델 복잡도에 따른 AIC/BIC 변화 (시각적 설명)”
AIC / BIC 값
│ ╲ ╱ ← BIC (강한 페널티)
│ ╲ ╌╌╌╌╌╌╌╌╌╌ ╱
│ ╲ ╱ ╲ ╱
│ ╲ ╱ ╲╱ ← BIC 최적점
│ ╲╱ ← AIC 최적점
│ ╲ ╱ ← AIC (약한 페널티)
│ ╲╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╱
└──────────────────────────────── 모델 복잡도 (파라미터 수) →

AIC 최적점이 BIC 최적점보다 오른쪽(더 복잡한 모델)에 위치하는 경향이 있다.


  • 우도 기반 모델 (GLM, 혼합 모델 등)의 빠른 모델 선택 → AIC/BIC
  • 예측 목적의 모델 선택 → AIC (또는 AICc)
  • 참 모델 식별 / 해석 목적 → BIC
  • 범용적이고 가정 없는 모델 비교교차 검증
  • 대규모 모델 탐색 후 최종 비교 → IC로 스크리닝 → CV로 최종 선택

유전학 연구에서 AIC vs BIC 선택이 결론을 뒤집은 사례

섹션 제목: “유전학 연구에서 AIC vs BIC 선택이 결론을 뒤집은 사례”

유전체 연관 연구(GWAS, Genome-Wide Association Study)에서 특정 유전자 변이와 질병의 관계를 모델링할 때, AIC와 BIC의 선택이 논문의 핵심 결론을 뒤집은 사례가 보고되었다.

한 유전학 연구팀이 특정 질병에 대한 유전적 위험 인자를 탐색하면서, 후보 SNP(Single Nucleotide Polymorphism) 조합 모델들을 비교했다. AIC 기준으로는 12개의 SNP를 포함한 복잡한 상호작용 모델이 최적으로 선택되었고, 이를 근거로 “다중 유전자 상호작용이 질병 위험을 결정한다”는 결론을 내렸다. 그러나 BIC 기준으로는 3개의 SNP만 포함한 단순 모델이 최적이었으며, 나머지 9개 SNP의 효과는 노이즈로 판단되었다.

이 차이가 발생한 근본 원인은 표본 크기와 복잡도 페널티의 상호작용에 있다. 해당 연구의 표본 크기(n5,000n \approx 5{,}000)에서 BIC의 파라미터당 페널티는 ln(5000)8.5\ln(5000) \approx 8.5로, AIC의 페널티(22)보다 4배 이상 강했다. AIC는 예측 성능을 최적화하므로 약한 효과의 변수도 포함하는 경향이 있지만, BIC는 “참 모델”을 식별하려 하므로 통계적으로 불확실한 변수를 제거했다.

교훈: 유전학처럼 해석과 인과 관계 규명이 목적인 분야에서는 BIC가 더 보수적이고 재현 가능한(reproducible) 결론을 제공한다. 반면, 질병 위험 예측 모델을 만드는 것이 목적이라면 AIC가 더 나은 예측 성능을 줄 수 있다. 두 기준이 같은 모델을 선택하면 확신을 가지되, 다른 모델을 선택하면 분석 목적을 명확히 하여 기준을 결정해야 한다.


  1. “AIC/BIC가 낮으면 절대적으로 좋은 모델이다” — IC는 후보 모델 간의 상대적 비교 도구다. IC 값 자체는 모델의 절대적 품질을 말하지 않는다.

  2. “AIC가 항상 BIC보다 좋다 (또는 그 반대)” — 목적에 따라 다르다. 예측이면 AIC, 해석이면 BIC. 둘 다 계산하여 비교하라.

  3. “파라미터 수만 세면 된다” — 정규화된 모델, 비모수 모델 등에서는 “효과적 파라미터 수(effective number of parameters)“를 사용해야 하며, 이는 명시적 파라미터 수와 다를 수 있다.

  4. “IC만으로 충분하다” — IC는 점근적 근사이므로, 소표본이나 비표준 모델에서는 부정확할 수 있다. 가능하면 CV로 검증하라.

  5. “AIC와 BIC가 다른 모델을 선택하면 문제다” — 이는 자연스러운 현상이다. 두 기준의 철학이 다르기 때문이다. 선택은 분석 목적에 따라 결정한다.