콘텐츠로 이동

회귀 지표 (Regression Metrics)

핵심 요약: 회귀 지표는 예측값과 실제값의 차이(오차)를 측정한다. MSE는 큰 오차에 엄격하고(제곱 페널티), MAE는 모든 오차를 공평하게 취급한다(절대값 페널티). RMSE는 MSE에 루트를 씌워 원래 단위로 해석할 수 있게 만든 것이다. 시험 점수를 채점할 때 큰 실수에 가혹한 선생님(RMSE)과 모든 실수를 동등하게 보는 선생님(MAE)의 차이와 같다.

회귀(Regression) 모델은 연속 값을 예측하므로, 분류와는 다른 평가 체계가 필요하다. 예측값 y^i\hat{y}_i와 실제값 yiy_i 사이의 차이(오차)를 어떻게 측정하느냐에 따라 모델의 성격이 달라진다.

이 문서에서는 MSE, RMSE, MAE, MAPE, R2R^2 등 핵심 회귀 지표의 정의, 특성, 그리고 상황별 선택 기준을 다룬다.


회귀 오차 측정의 역사는 카를 프리드리히 가우스(Carl Friedrich Gauss)의 최소제곱법(Method of Least Squares)까지 거슬러 올라간다. 1801년, 가우스는 소행성 세레스(Ceres)의 궤도를 예측하기 위해 관측 데이터와 예측값 사이의 제곱 오차 합을 최소화하는 방법을 사용했다. 왜 절대값이 아닌 제곱이었을까? 첫째, 제곱 함수는 모든 점에서 미분 가능(differentiable)하여 수학적으로 다루기 쉬웠다. 둘째, 가우시안 노이즈(Gaussian Noise) 가정 하에서 최소제곱법은 최대우도추정(Maximum Likelihood Estimation)과 정확히 일치한다는 것이 증명되었다. 이 우아한 수학적 성질 덕분에 MSE는 200년이 넘는 시간 동안 회귀 평가의 기본 지표(default metric)로 자리잡았다. 하지만 20세기 후반 강건 통계학(Robust Statistics)이 발전하면서, 이상치(Outlier)에 민감한 MSE의 한계가 부각되었고, MAE, Huber Loss 등 대안 지표가 실무에서 함께 사용되기 시작했다.


Mean Squared Error (MSE, 평균제곱오차)

섹션 제목: “Mean Squared Error (MSE, 평균제곱오차)”

MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2

  • 단위: 목표 변수의 제곱 단위 (예: 가격 예측이면 원2^2)
  • 특성: 미분 가능(differentiable), 큰 오차에 이차적(quadratic) 페널티
  • 통계적 의미: 가우시안 노이즈(Gaussian Noise, 정규분포를 따르는 랜덤 오차) 가정 하에 최대우도추정(MLE, Maximum Likelihood Estimation)과 동일
  • 최적 예측기: 조건부 평균 E[YX]E[Y|X]

3개의 집값을 예측한다고 하자 (단위: 억 원):

실제값 (yy)예측값 (y^\hat{y})오차 (yy^y - \hat{y})오차2^2절대 오차
23-111
55000
107393
  • MSE = (1 + 0 + 9) / 3 = 3.33 (억 원2^2 — 단위가 제곱이라 직관적이지 않다)
  • RMSE = 3.33\sqrt{3.33} = 1.83억 원 (원래 단위로 돌아옴)
  • MAE = (1 + 0 + 3) / 3 = 1.33억 원

RMSE(1.83) > MAE(1.33)인 이유: 세 번째 샘플의 큰 오차(3억)가 제곱되면서 MSE/RMSE를 크게 끌어올렸다.


Root Mean Squared Error (RMSE, 평균제곱근오차)

섹션 제목: “Root Mean Squared Error (RMSE, 평균제곱근오차)”

RMSE=MSE=1ni=1n(yiy^i)2\text{RMSE} = \sqrt{\text{MSE}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}

  • 단위: 목표 변수와 동일한 단위 → MSE보다 해석이 용이
  • 특성: 여전히 큰 오차에 민감 (이상치 영향 큼)
  • 실무에서 MSE보다 RMSE를 보고하는 경우가 많다

비유하자면, RMSE는 큰 실수에 엄격한 선생님이다 — 작은 실수 10개보다 큰 실수 1개를 훨씬 가혹하게 평가한다. 반면 MAE는 공평한 선생님으로, 모든 실수를 크기에 상관없이 동등하게 취급한다.


Mean Absolute Error (MAE, 평균절대오차)

섹션 제목: “Mean Absolute Error (MAE, 평균절대오차)”

MAE=1ni=1nyiy^i\text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|

  • 단위: 목표 변수와 동일
  • 특성: 이상치에 MSE/RMSE보다 강건(robust)
  • 통계적 의미: 중앙값 회귀(Median regression), L1 손실과 대응
  • 최적 예측기: 조건부 중앙값 Median(YX)\text{Median}(Y|X)
  • 단점: 0에서 미분 불가능 (하지만 서브그래디언트 존재)

특성MSE / RMSEMAE
큰 오차에 대한 민감도높음 (이차 페널티)낮음 (선형 페널티)
이상치 강건성약함강함
최적 예측기조건부 평균조건부 중앙값
미분 가능성어디서나 미분 가능0에서 불가
오차 분포 가정가우시안에 최적라플라스에 최적

Huber Loss — 절충안:

Lδ(a)={12a2if aδδ(a12δ)otherwiseL_\delta(a) = \begin{cases} \frac{1}{2}a^2 & \text{if } |a| \leq \delta \\ \delta(|a| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}

작은 오차에서는 MSE처럼, 큰 오차에서는 MAE처럼 동작한다. δ\delta로 전환점을 조절한다.


Mean Absolute Percentage Error (MAPE, 평균절대백분율오차)

섹션 제목: “Mean Absolute Percentage Error (MAPE, 평균절대백분율오차)”

MAPE=100ni=1nyiy^iyi\text{MAPE} = \frac{100}{n}\sum_{i=1}^{n}\left|\frac{y_i - \hat{y}_i}{y_i}\right|

  • 장점: 스케일 독립(scale-independent) — 서로 다른 규모의 목표를 비교할 수 있다
  • 함정 1: yi=0y_i = 0이면 정의되지 않음 (0으로 나누기)
  • 함정 2: 비대칭 — 과소예측(under-prediction)에 과대예측보다 더 큰 페널티

Symmetric MAPE (sMAPE) — 비대칭 문제 완화:

sMAPE=200ni=1nyiy^iyi+y^i\text{sMAPE} = \frac{200}{n}\sum_{i=1}^{n}\frac{|y_i - \hat{y}_i|}{|y_i| + |\hat{y}_i|}


R2=1SSresSStot=1i=1n(yiy^i)2i=1n(yiyˉ)2R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}

  • 해석: 모델이 설명하는 분산(Variance, 데이터가 평균으로부터 퍼져 있는 정도)의 비율
  • R2=1R^2 = 1: 완벽한 예측
  • R2=0R^2 = 0: 평균 예측과 동일한 성능
  • R2<0R^2 < 0: 평균 예측보다 나쁨 (매우 나쁜 모델)
  • 범위: (,1](-\infty, 1]

함정: 특성(feature)을 추가하면 R2R^2는 항상 증가하거나 유지된다 — 무관한 특성을 추가해도 마찬가지. 이는 모델 선택에 R2R^2를 그대로 사용하면 안 되는 이유다.


Radj2=1(1R2)(n1)np1R^2_{\text{adj}} = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1}

  • nn: 샘플 수, pp: 예측 변수의 수
  • 무관한 특성 추가 시 감소할 수 있다 → 모델 복잡도에 대한 페널티 역할
  • 서로 다른 수의 특성을 가진 모델 비교에 유용
  • 자세한 모델 선택 기준은 모델 선택 기준 참조

Explained Variance Score (설명된 분산)

섹션 제목: “Explained Variance Score (설명된 분산)”

EV=1Var(yy^)Var(y)\text{EV} = 1 - \frac{\text{Var}(y - \hat{y})}{\text{Var}(y)}

  • R2R^2와의 차이: EV는 예측의 상수 편향(constant bias)에 둔감하다
  • 항상 R2EVR^2 \leq \text{EV}, 예측이 비편향(unbiased)일 때 등호 성립

지표수식특징
Max Errormaxiyiy^i\max_i \|y_i - \hat{y}_i\|최악의 예측 분석
Median Absolute Errormedian(yiy^i)\text{median}(\|y_i - \hat{y}_i\|)MAE보다 이상치에 더 강건
MSLE1n[log(1+yi)log(1+y^i)]2\frac{1}{n}\sum[\log(1+y_i) - \log(1+\hat{y}_i)]^2과소예측에 더 큰 페널티; 목표가 여러 자릿수에 걸칠 때
Quantile LossLq(y,y^)=qmax(yy^,0)+(1q)max(y^y,0)L_q(y, \hat{y}) = q \cdot \max(y-\hat{y}, 0) + (1-q) \cdot \max(\hat{y}-y, 0)분위수 회귀용

지표이상치 민감도스케일 의존해석 용이성미분 가능
MSE높음예 (제곱 단위)낮음
RMSE높음예 (원래 단위)보통
MAE보통예 (원래 단위)높음아니오 (0에서)
MAPE보통아니오 (%)높음아니오
R2R^2높음아니오 (무차원)높음
Median AE낮음예 (원래 단위)높음아니오

언제 사용하는가 다이어그램 실전 가이드:

상황추천 지표이유
일반적인 회귀 벤치마크RMSE + R2R^2표준적, 해석 용이
이상치가 많은 데이터MAE 또는 Huber강건한 평가
다른 스케일의 목표 비교MAPE스케일 독립
부동산 가격 등 넓은 범위MSLE상대적 오차 중시
최악의 경우 분석Max Error안전 관련 응용
모델 복잡도 비교Adjusted R2R^2과적합 방지

동일한 회귀 모델이라도 도메인에 따라 적합한 지표가 완전히 다르다. 한 금융(Finance) 회사에서 포트폴리오 리스크 예측 모델을 평가할 때, MAE 기준으로는 모델 A(MAE = 2.1%)가 모델 B(MAE = 2.4%)보다 우수했다. 그러나 RMSE 기준으로는 모델 B(RMSE = 3.8%)가 모델 A(RMSE = 5.2%)보다 좋았다. 원인은 모델 A가 대부분의 예측은 정확했지만, 극단적 시장 변동 시 최대 오차가 18%에 달했기 때문이다. 금융에서는 최악의 오류(tail risk)가 파산으로 이어질 수 있으므로 RMSE(또는 Max Error)를 우선시했다. 반면, 같은 시기 한 추천 시스템(Recommendation System) 팀에서는 영화 평점 예측에 MAE를 주 지표로 사용했다 — 평균적인 사용자 만족도가 중요하지, 한두 명의 극단적 취향 차이는 비즈니스 영향이 적었기 때문이다.


  1. R2R^2가 높으면 좋은 모델이다”R2R^2는 특성 추가에 대해 단조 증가하므로, 과적합 모델도 높은 R2R^2를 가질 수 있다. Adjusted R2R^2 또는 교차 검증을 사용하라.

  2. “RMSE와 MAE는 같은 순서를 준다” — 이상치 분포에 따라 모델 순위가 달라질 수 있다. 두 지표가 다른 모델을 선호하면, 데이터의 이상치 구조를 점검해야 한다.

  3. “MAPE는 항상 스케일 독립적이다”yiy_i가 0에 가까우면 MAPE가 폭발한다. 0이 포함될 수 있는 데이터에서는 sMAPE나 다른 지표를 고려하라.

  4. R2R^2는 항상 [0, 1]이다” — 아니다. R2R^2는 음수가 될 수 있다. 이는 모델이 단순 평균 예측보다 나쁘다는 의미다.

  5. “MSE를 최소화하면 최선의 모델이다” — MSE는 이상치에 지나치게 민감할 수 있고, 실제 비즈니스 목적과 맞지 않을 수 있다. 지표 선택은 도메인에 따라 달라져야 한다.