회귀 지표 (Regression Metrics)

핵심 요약: 회귀 지표는 예측값과 실제값의 차이(오차)를 측정한다. MSE는 큰 오차에 엄격하고(제곱 페널티), MAE는 모든 오차를 공평하게 취급한다(절대값 페널티). RMSE는 MSE에 루트를 씌워 원래 단위로 해석할 수 있게 만든 것이다. 시험 점수를 채점할 때 큰 실수에 가혹한 선생님(RMSE)과 모든 실수를 동등하게 보는 선생님(MAE)의 차이와 같다.

개요

회귀(Regression) 모델은 연속 값을 예측하므로, 분류와는 다른 평가 체계가 필요하다. 예측값 $\hat{y}_i$ 와 실제값 $y_i$ 사이의 차이(오차)를 어떻게 측정하느냐에 따라 모델의 성격이 달라진다.

이 문서에서는 MSE, RMSE, MAE, MAPE, $R^2$ 등 핵심 회귀 지표의 정의, 특성, 그리고 상황별 선택 기준을 다룬다.

탄생 배경

회귀 오차 측정의 역사는 카를 프리드리히 가우스(Carl Friedrich Gauss)의 최소제곱법(Method of Least Squares)까지 거슬러 올라간다. 1801년, 가우스는 소행성 세레스(Ceres)의 궤도를 예측하기 위해 관측 데이터와 예측값 사이의 제곱 오차 합을 최소화하는 방법을 사용했다. 왜 절대값이 아닌 제곱이었을까? 첫째, 제곱 함수는 모든 점에서 미분 가능(differentiable)하여 수학적으로 다루기 쉬웠다. 둘째, 가우시안 노이즈(Gaussian Noise) 가정 하에서 최소제곱법은 최대우도추정(Maximum Likelihood Estimation)과 정확히 일치한다는 것이 증명되었다. 이 우아한 수학적 성질 덕분에 MSE는 200년이 넘는 시간 동안 회귀 평가의 기본 지표(default metric)로 자리잡았다. 하지만 20세기 후반 강건 통계학(Robust Statistics)이 발전하면서, 이상치(Outlier)에 민감한 MSE의 한계가 부각되었고, MAE, Huber Loss 등 대안 지표가 실무에서 함께 사용되기 시작했다.

핵심 개념

Mean Squared Error (MSE, 평균제곱오차)

$\text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$

단위: 목표 변수의 제곱 단위 (예: 가격 예측이면 원 $^2$ )
특성: 미분 가능(differentiable), 큰 오차에 이차적(quadratic) 페널티
통계적 의미: 가우시안 노이즈(Gaussian Noise, 정규분포를 따르는 랜덤 오차) 가정 하에 최대우도추정(MLE, Maximum Likelihood Estimation)과 동일
최적 예측기: 조건부 평균 $E[Y|X]$

숫자로 이해하기

3개의 집값을 예측한다고 하자 (단위: 억 원):

실제값 ( $y$ ) 예측값 ( $\hat{y}$ ) 오차 ( $y - \hat{y}$ ) 오차 $^2$ 절대 오차
2 3 -1 1 1
5 5 0 0 0
10 7 3 9 3

MSE = (1 + 0 + 9) / 3 = 3.33 (억 원 $^2$ — 단위가 제곱이라 직관적이지 않다)

RMSE = $\sqrt{3.33}$ = 1.83억 원 (원래 단위로 돌아옴)

MAE = (1 + 0 + 3) / 3 = 1.33억 원

RMSE(1.83) > MAE(1.33)인 이유: 세 번째 샘플의 큰 오차(3억)가 제곱되면서 MSE/RMSE를 크게 끌어올렸다.

실제값 ( $y$ )	예측값 ( $\hat{y}$ )	오차 ( $y - \hat{y}$ )	오차 $^2$	절대 오차
2	3	-1	1	1
5	5	0	0	0
10	7	3	9	3

Root Mean Squared Error (RMSE, 평균제곱근오차)

$\text{RMSE} = \sqrt{\text{MSE}} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}$

단위: 목표 변수와 동일한 단위 → MSE보다 해석이 용이
특성: 여전히 큰 오차에 민감 (이상치 영향 큼)
실무에서 MSE보다 RMSE를 보고하는 경우가 많다

비유하자면, RMSE는 큰 실수에 엄격한 선생님이다 — 작은 실수 10개보다 큰 실수 1개를 훨씬 가혹하게 평가한다. 반면 MAE는 공평한 선생님으로, 모든 실수를 크기에 상관없이 동등하게 취급한다.

Mean Absolute Error (MAE, 평균절대오차)

$\text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|$

단위: 목표 변수와 동일
특성: 이상치에 MSE/RMSE보다 강건(robust)
통계적 의미: 중앙값 회귀(Median regression), L1 손실과 대응
최적 예측기: 조건부 중앙값 $\text{Median}(Y|X)$
단점: 0에서 미분 불가능 (하지만 서브그래디언트 존재)

MSE vs MAE 트레이드오프

특성	MSE / RMSE	MAE
큰 오차에 대한 민감도	높음 (이차 페널티)	낮음 (선형 페널티)
이상치 강건성	약함	강함
최적 예측기	조건부 평균	조건부 중앙값
미분 가능성	어디서나 미분 가능	0에서 불가
오차 분포 가정	가우시안에 최적	라플라스에 최적

Huber Loss — 절충안:

$L_\delta(a) = \begin{cases} \frac{1}{2}a^2 & \text{if } |a| \leq \delta \\ \delta(|a| - \frac{1}{2}\delta) & \text{otherwise} \end{cases}$

작은 오차에서는 MSE처럼, 큰 오차에서는 MAE처럼 동작한다. $\delta$ 로 전환점을 조절한다.

Mean Absolute Percentage Error (MAPE, 평균절대백분율오차)

$\text{MAPE} = \frac{100}{n}\sum_{i=1}^{n}\left|\frac{y_i - \hat{y}_i}{y_i}\right|$

장점: 스케일 독립(scale-independent) — 서로 다른 규모의 목표를 비교할 수 있다
함정 1: $y_i = 0$ 이면 정의되지 않음 (0으로 나누기)
함정 2: 비대칭 — 과소예측(under-prediction)에 과대예측보다 더 큰 페널티

Symmetric MAPE (sMAPE) — 비대칭 문제 완화:

$\text{sMAPE} = \frac{200}{n}\sum_{i=1}^{n}\frac{|y_i - \hat{y}_i|}{|y_i| + |\hat{y}_i|}$

결정계수 ( $R^2$ , R-Squared)

$R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$

해석: 모델이 설명하는 분산(Variance, 데이터가 평균으로부터 퍼져 있는 정도)의 비율
$R^2 = 1$ : 완벽한 예측
$R^2 = 0$ : 평균 예측과 동일한 성능
$R^2 < 0$ : 평균 예측보다 나쁨 (매우 나쁜 모델)
범위: $(-\infty, 1]$

함정: 특성(feature)을 추가하면 $R^2$ 는 항상 증가하거나 유지된다 — 무관한 특성을 추가해도 마찬가지. 이는 모델 선택에 $R^2$ 를 그대로 사용하면 안 되는 이유다.

수정 결정계수 (Adjusted $R^2$ )

$R^2_{\text{adj}} = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1}$

$n$ : 샘플 수, $p$ : 예측 변수의 수
무관한 특성 추가 시 감소할 수 있다 → 모델 복잡도에 대한 페널티 역할
서로 다른 수의 특성을 가진 모델 비교에 유용
자세한 모델 선택 기준은 모델 선택 기준 참조

Explained Variance Score (설명된 분산)

$\text{EV} = 1 - \frac{\text{Var}(y - \hat{y})}{\text{Var}(y)}$

$R^2$ 와의 차이: EV는 예측의 상수 편향(constant bias)에 둔감하다
항상 $R^2 \leq \text{EV}$ , 예측이 비편향(unbiased)일 때 등호 성립

기타 회귀 지표

지표	수식	특징
Max Error	$\max_i \\|y_i - \hat{y}_i\\|$	최악의 예측 분석
Median Absolute Error	$\text{median}(\\|y_i - \hat{y}_i\\|)$	MAE보다 이상치에 더 강건
MSLE	$\frac{1}{n}\sum[\log(1+y_i) - \log(1+\hat{y}_i)]^2$	과소예측에 더 큰 페널티; 목표가 여러 자릿수에 걸칠 때
Quantile Loss	$L_q(y, \hat{y}) = q \cdot \max(y-\hat{y}, 0) + (1-q) \cdot \max(\hat{y}-y, 0)$	분위수 회귀용

상세 내용: 지표 종합 비교

지표	이상치 민감도	스케일 의존	해석 용이성	미분 가능
MSE	높음	예 (제곱 단위)	낮음	예
RMSE	높음	예 (원래 단위)	보통	예
MAE	보통	예 (원래 단위)	높음	아니오 (0에서)
MAPE	보통	아니오 (%)	높음	아니오
$R^2$	높음	아니오 (무차원)	높음	예
Median AE	낮음	예 (원래 단위)	높음	아니오

언제 사용하는가

언제 사용하는가 다이어그램 실전 가이드:

상황	추천 지표	이유
일반적인 회귀 벤치마크	RMSE + $R^2$	표준적, 해석 용이
이상치가 많은 데이터	MAE 또는 Huber	강건한 평가
다른 스케일의 목표 비교	MAPE	스케일 독립
부동산 가격 등 넓은 범위	MSLE	상대적 오차 중시
최악의 경우 분석	Max Error	안전 관련 응용
모델 복잡도 비교	Adjusted $R^2$	과적합 방지

실전 사례

동일한 회귀 모델이라도 도메인에 따라 적합한 지표가 완전히 다르다. 한 금융(Finance) 회사에서 포트폴리오 리스크 예측 모델을 평가할 때, MAE 기준으로는 모델 A(MAE = 2.1%)가 모델 B(MAE = 2.4%)보다 우수했다. 그러나 RMSE 기준으로는 모델 B(RMSE = 3.8%)가 모델 A(RMSE = 5.2%)보다 좋았다. 원인은 모델 A가 대부분의 예측은 정확했지만, 극단적 시장 변동 시 최대 오차가 18%에 달했기 때문이다. 금융에서는 최악의 오류(tail risk)가 파산으로 이어질 수 있으므로 RMSE(또는 Max Error)를 우선시했다. 반면, 같은 시기 한 추천 시스템(Recommendation System) 팀에서는 영화 평점 예측에 MAE를 주 지표로 사용했다 — 평균적인 사용자 만족도가 중요하지, 한두 명의 극단적 취향 차이는 비즈니스 영향이 적었기 때문이다.

흔한 오해와 함정

“ $R^2$ 가 높으면 좋은 모델이다” — $R^2$ 는 특성 추가에 대해 단조 증가하므로, 과적합 모델도 높은 $R^2$ 를 가질 수 있다. Adjusted $R^2$ 또는 교차 검증을 사용하라.
“RMSE와 MAE는 같은 순서를 준다” — 이상치 분포에 따라 모델 순위가 달라질 수 있다. 두 지표가 다른 모델을 선호하면, 데이터의 이상치 구조를 점검해야 한다.
“MAPE는 항상 스케일 독립적이다” — $y_i$ 가 0에 가까우면 MAPE가 폭발한다. 0이 포함될 수 있는 데이터에서는 sMAPE나 다른 지표를 고려하라.
“ $R^2$ 는 항상 [0, 1]이다” — 아니다. $R^2$ 는 음수가 될 수 있다. 이는 모델이 단순 평균 예측보다 나쁘다는 의미다.
“MSE를 최소화하면 최선의 모델이다” — MSE는 이상치에 지나치게 민감할 수 있고, 실제 비즈니스 목적과 맞지 않을 수 있다. 지표 선택은 도메인에 따라 달라져야 한다.

다른 주제와의 연결

편향-분산 트레이드오프: MSE의 편향-분산 분해 — 회귀 오차의 근본 원인 분석
교차 검증: 회귀 지표를 신뢰할 수 있게 추정하는 방법
모델 선택 기준: AIC, BIC와 Adjusted $R^2$ 의 관계
보정 (Calibration): 확률적 회귀(probabilistic regression)에서의 보정