시계열 모델 (Time Series Models)

난이도: 중급~고급
선수 지식: 신경망 기초, 손실 함수, 기초 통계학
관련 문서: RNN/LSTM/GRU | Transformer | 특성 공학

핵심 요약: 시계열 모델(Time Series Model)은 시간순 데이터의 패턴(추세, 계절성)을 찾아 미래를 예측한다. ARIMA는 통계적 표준이고, Prophet은 비즈니스 친화적이며, LSTM/Transformer 기반 모델은 복잡한 비선형(Non-linear) 패턴을 학습한다. 핵심: 시계열에서는 무작위 분할(Random Split)을 절대 하면 안 된다 (시간 순서 유지 필수).

핵심 용어 미리보기:

정상성 (Stationarity): 시계열의 통계적 성질(평균, 분산)이 시간에 따라 변하지 않는 상태. 대부분의 통계 모델이 이를 전제한다
추세 (Trend): 데이터의 장기적 증가/감소 경향
계절성 (Seasonality): 일정한 주기로 반복되는 패턴 (예: 여름 아이스크림 매출 증가)
자기상관 (Autocorrelation): 현재 값과 과거 값 사이의 상관관계. 시계열의 내부 구조를 파악하는 핵심 도구
차분 (Differencing): $y_t' = y_t - y_{t-1}$ , 비정상 시계열에서 추세를 제거하여 정상으로 변환하는 기법

개요

시계열 데이터(Time Series Data)는 시간 순서에 따라 관측된 데이터 포인트의 연속이다. 주가, 기온, 서버 트래픽, 에너지 소비량 등이 대표적이다. 시계열이 일반적인 ML 문제와 근본적으로 다른 이유는 i.i.d. 가정의 위반이다. 관측값들이 시간적으로 종속(temporally dependent)되어 있으며, 이 종속 구조 자체가 핵심 정보를 담고 있다.

관점	일반 ML	시계열
데이터 분할	무작위 분할 가능	시간 순서 유지 필수
교차 검증	k-fold CV	확장 윈도우 (Expanding Window) CV
특성	독립적으로 존재	래그(lag), 이동 평균, 계절 성분 등 시간 기반
분포	정적(static) 가정	비정상성 (Non-stationarity) 빈번
평가	전체 데이터에서 무작위 샘플링	미래 시점에서만 평가

탄생 배경

시계열 예측의 역사에서 가장 혁명적인 전환점은 1970년 Box와 Jenkins의 방법론이다. George Box와 Gwilym Jenkins는 저서 Time Series Analysis: Forecasting and Control에서 ARIMA 모델의 체계적인 식별-추정-진단 절차를 제시하였다. 이 “Box-Jenkins 방법론”은 시계열 예측을 직관과 경험에 의존하는 기예(art)에서 체계적인 과학(science)으로 전환시켰다. 이후 수십 년간 ARIMA와 그 변형(SARIMA, ARIMAX)은 경제학, 기상학, 공학 등 거의 모든 분야에서 예측의 표준 도구로 자리 잡았다.

2017년 Facebook(현 Meta)이 Prophet을 오픈소스로 공개하면서 새로운 물결이 시작되었다. Prophet은 통계적 엄밀성보다 분석가 친화성을 우선시하여, 도메인 전문가가 휴일, 이벤트, 변화점(changepoint) 등의 사전 지식을 쉽게 반영할 수 있도록 설계되었다. 이는 “예측 민주화(democratization of forecasting)“라 불리며, 통계 전문가가 아닌 비즈니스 분석가도 고품질 예측을 수행할 수 있는 길을 열었다.

2023년 이후에는 Google의 TimesFM, Amazon의 Chronos 등 시계열 파운데이션 모델(Foundation Models)이 등장하고 있다. 대규모 다양한 시계열로 사전 학습된 이 모델들은 제로샷(zero-shot) 예측이 가능하여, LLM이 NLP를 변혁한 것처럼 시계열 예측의 패러다임을 바꿀 가능성이 있다.

Box-Jenkins (1970) → 지수 평활/ETS 체계화 (1980s) → Prophet (2017) → N-BEATS/TFT (2019-2021) → Foundation Models (2023~). 핵심 트렌드는 “통계적 엄밀성 → 실무 접근성 → 대규모 사전학습”이다.

핵심 개념

1. 정상성 (Stationarity)

시계열 분석의 출발점은 정상성 확인이다. 비유하자면, 정상성은 공정한 주사위와 같다 — 어느 시점에 던져도 같은 확률 분포를 따른다. 반면 비정상성은 갈수록 눈이 커지는 주사위이다 — 시간이 지남에 따라 분포 자체가 변한다. 정상성 변환(차분, 로그 변환 등)은 이 비정상 주사위를 정상 주사위로 되돌리는 작업이다. 대부분의 통계 모델은 정상 주사위를 전제로 설계되었으므로, 이 변환이 올바르게 이루어져야 모델이 의미 있는 결과를 낼 수 있다.

약한 정상성 (Weak Stationarity)의 조건:

$E[y_t] = \mu$ — 평균이 시간에 무관하게 일정
$\text{Var}(y_t) = \sigma^2$ — 분산이 시간에 무관하게 일정
$\text{Cov}(y_t, y_{t+k}) = \gamma(k)$ — 자기공분산이 시차 $k$ 에만 의존

숫자로 이해하기

6개월간 월 매출(단위: 억원) 데이터가 $[10, 12, 11, 13, 12, 14]$ 라고 하자.

추세(Trend) 계산 — 단순 선형 회귀(Linear Regression)로 추세를 추정한다:

시점 $t = [1, 2, 3, 4, 5, 6]$ , 매출 $y = [10, 12, 11, 13, 12, 14]$
기울기(slope): $\hat{b} = \frac{\sum(t - \bar{t})(y - \bar{y})}{\sum(t - \bar{t})^2}$ . $\bar{t} = 3.5$ , $\bar{y} = 12$
분자: $(1-3.5)(10-12) + \cdots + (6-3.5)(14-12) = 5 + 1.5 + 0 + 0.5 + 0 + 5 = 12$ (실제 계산 결과)
분모: $(-2.5)^2 + (-1.5)^2 + (-0.5)^2 + (0.5)^2 + (1.5)^2 + (2.5)^2 = 17.5$
$\hat{b} = 12 / 17.5 \approx 0.69$ (억원/월)

추세선: 매달 약 0.69억원씩 증가하는 추세이다. 7번째 달 예측: $12 + 0.69 \times (7 - 3.5) \approx 14.4$ 억원. 여기에 계절성(Seasonality)과 잔차(Residual)를 추가로 모델링하면 정확도가 올라간다.

검정 방법:

검정	귀무가설	해석
ADF (Augmented Dickey-Fuller)	단위근 존재 (비정상)	p-value < 0.05이면 정상
KPSS	정상	p-value < 0.05이면 비정상

두 검정을 함께 사용하면 보다 신뢰할 수 있는 판단이 가능하다.

비정상 시계열을 정상으로 변환하는 방법:

차분 (Differencing): $y_t' = y_t - y_{t-1}$ , 추세 제거
로그 변환: $y_t' = \log(y_t)$ , 분산 안정화
Box-Cox 변환: $y_t' = \frac{y_t^\lambda - 1}{\lambda}$ , 일반화된 분산 안정화

2. 자기상관 (Autocorrelation)

자기상관함수 (ACF)와 편자기상관함수 (PACF)는 시계열의 내부 구조를 파악하는 핵심 도구이다.

ACF (Autocorrelation Function): 시차 $k$ 에서의 상관계수 $\rho_k = \frac{\gamma(k)}{\gamma(0)}$
PACF (Partial ACF): 중간 시차의 영향을 제거한 순수 상관

ACF/PACF 해석 가이드:

패턴	ACF	PACF	모델
AR(p)	지수적 감소 또는 진동 감소	$p$ 이후 절단	$\text{AR}(p)$
MA(q)	$q$ 이후 절단	지수적 감소 또는 진동 감소	$\text{MA}(q)$
ARMA(p,q)	지수적 감소	지수적 감소	$\text{ARMA}(p,q)$

3. 분해 (Decomposition)

시계열은 세 성분으로 분해할 수 있다:

$y_t = T_t + S_t + R_t \quad \text{(덧셈 모델)}$ $y_t = T_t \times S_t \times R_t \quad \text{(곱셈 모델)}$

여기서 $T_t$ 는 추세(trend), $S_t$ 는 계절성(seasonality), $R_t$ 는 잔차(residual)이다.

덧셈 모델: 계절 변동의 크기가 일정할 때
곱셈 모델: 계절 변동이 추세에 비례하여 커질 때
STL (Seasonal-Trend decomposition using LOESS): 비선형 추세와 변동하는 계절성을 처리할 수 있는 강건한 분해 방법

4. 예측 지평 (Forecast Horizon)

유형	기간	특성	적합 모델
단기	1~수 시점	높은 정확도 가능	ARIMA, 지수 평활
중기	수십~수백 시점	추세 + 계절성 중요	Prophet, SARIMA
장기	수백 시점 이상	오차 누적, 불확실성 급증	확률적 예측 필수

예측 지평이 길어질수록 오차가 누적되므로, 점 예측(point forecast)보다 구간 예측(interval forecast)이 중요해진다.

상세 내용

통계 모델

AR, MA, ARMA

자기회귀 모델 AR(p):

$y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \cdots + \phi_p y_{t-p} + \epsilon_t$

현재 값이 과거 $p$ 개 시점의 선형 결합으로 결정된다.

이동평균 모델 MA(q):

$y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q}$

현재 값이 과거 $q$ 개 시점의 오차항 선형 결합으로 결정된다.

ARMA(p,q): AR과 MA를 결합한 모델이다.

ARIMA와 SARIMA

ARIMA(p,d,q)는 비정상 시계열을 $d$ 번 차분하여 정상으로 만든 후 ARMA를 적용하는 모델이다.

$\Delta^d y_t = c + \sum_{i=1}^{p} \phi_i \Delta^d y_{t-i} + \sum_{j=1}^{q} \theta_j \epsilon_{t-j} + \epsilon_t$

여기서 $\Delta$ 는 차분 연산자 ( $\Delta y_t = y_t - y_{t-1}$ )이다.

SARIMA(p,d,q)(P,D,Q)[m]은 계절 성분을 추가한 확장으로, $m$ 은 계절 주기이다.

Box-Jenkins 방법론:

ARIMA와 SARIMA 다이어그램 모델 선택 기준:

AIC (Akaike Information Criterion): $\text{AIC} = -2\ln(L) + 2k$ , 예측 정확도 중시
BIC (Bayesian Information Criterion): $\text{BIC} = -2\ln(L) + k\ln(n)$ , 모델 간결성 중시 (더 강한 패널티)

여기서 $L$ 은 우도(likelihood), $k$ 는 매개변수 수, $n$ 은 관측 수이다.

지수 평활 (Exponential Smoothing)

최근 관측에 더 높은 가중치를 부여하는 모델 군이다.

단순 지수 평활 (SES): 추세/계절성 없는 경우

$\hat{y}_{t+1} = \alpha y_t + (1-\alpha)\hat{y}_t$

Holt 방법: 추세 포함

$\hat{y}_{t+h} = l_t + h \cdot b_t$

여기서 $l_t$ 는 수준(level), $b_t$ 는 추세(trend)이다.

Holt-Winters 방법: 추세 + 계절성 포함 (덧셈/곱셈 변형 존재)

ETS (Error, Trend, Seasonality) 프레임워크는 지수 평활의 모든 변형을 체계적으로 분류한다: 오차(A/M), 추세(N/A/Ad/M/Md), 계절성(N/A/M)의 조합으로 30가지 모델을 정의한다.

Prophet

Facebook(Meta)이 개발한 Prophet은 비즈니스 시계열 예측에 특화된 모델이다.

$y(t) = g(t) + s(t) + h(t) + \epsilon_t$

여기서:

$g(t)$ : 추세 함수 (선형 또는 로지스틱 성장)
$s(t)$ : 푸리에 급수 기반 계절성
$h(t)$ : 휴일/이벤트 효과
$\epsilon_t$ : 정규 분포 오차

장점: 결측치에 강건, 변화점(changepoint) 자동 탐지, 도메인 지식(휴일, 이벤트) 쉽게 반영, 분석가 친화적 인터페이스

한계: 매우 짧은 주기의 시계열(분/초 단위)에 약함, 다변량 시계열 직접 지원 안 함, 복잡한 비선형 패턴 포착 제한적

딥러닝 기반 모델

LSTM/GRU

순환 신경망 기반 시계열 모델은 RNN/LSTM/GRU에서 상세히 다룬다. 시계열에서의 핵심 적용 방식은 슬라이딩 윈도우로 입력 시퀀스를 구성한 후, 인코더-디코더 구조로 다중 시점 예측을 수행하는 것이다.

Temporal Fusion Transformer (TFT)

정적 공변량, 알려진 미래 입력, 과거 관측값을 구분하여 처리하는 어텐션 기반 아키텍처이다. 변수 중요도 해석이 가능하여 실무에서 높은 인기를 얻고 있다.

N-BEATS

순수 MLP 기반의 시계열 예측 모델로, 잔차 연결과 기저 확장(basis expansion)을 활용한다. 외부 특성 없이 과거 값만으로 예측하는 “순수 시계열” 접근이 특징이다.

PatchTST

시계열을 패치(patch)로 분할한 후 Transformer의 self-attention을 적용한다. 긴 시퀀스를 효율적으로 처리할 수 있으며, 채널 독립(channel-independent) 전략으로 다변량 시계열에도 강건하다.

파운데이션 모델 (Foundation Models)

TimesFM (Google), Chronos (Amazon) 등 대규모 시계열 데이터로 사전 학습된 모델이 등장하고 있다. 제로샷(zero-shot) 또는 소수 샷(few-shot) 예측이 가능하여, 도메인별 학습 없이도 준수한 성능을 보인다. 아직 초기 단계이나 빠르게 발전 중이다.

모델 분류 체계

모델 분류 체계 다이어그램

확률적 예측 (Probabilistic Forecasting)

점 예측만으로는 의사결정에 불충분한 경우가 많다. 확률적 예측은 예측 불확실성을 정량화한다.

분위 회귀 (Quantile Regression): 특정 분위수 $\tau$ 에 대한 예측값을 학습한다.

$L_\tau(\hat{y}, y) = \begin{cases} \tau(y - \hat{y}) & \text{if } y \geq \hat{y} \\ (1 - \tau)(\hat{y} - y) & \text{if } y < \hat{y} \end{cases}$

이 손실 함수를 핀볼 손실 (Pinball Loss)이라 한다.

DeepAR: 오토리그레시브 RNN에 확률적 출력층을 결합하여 예측 분포를 직접 모델링한다.

등각 예측 (Conformal Prediction): 모델에 무관한(model-agnostic) 방법으로 유효한 예측 구간을 보장한다. 교환 가능성(exchangeability) 가정이 필요하므로 시계열에 직접 적용하기 어렵지만, 적응적 변형(ACI)이 연구되고 있다.

다변량 시계열 (Multivariate Time Series)

VAR (Vector Autoregression): 다변량 AR 모델로, $k$ 개 변수의 상호 의존성을 동시에 모델링한다.

$\mathbf{y}_t = c + \sum_{i=1}^{p} \Phi_i \mathbf{y}_{t-i} + \boldsymbol{\epsilon}_t$

여기서 $\Phi_i$ 는 $k \times k$ 계수 행렬이다.

공적분 (Cointegration): 개별적으로 비정상이지만 선형 결합이 정상인 시계열 쌍. 장기 균형 관계를 나타낸다.

그랜저 인과성 (Granger Causality): 변수 $X$ 의 과거 값이 $Y$ 예측에 통계적으로 유의한 정보를 추가하는지 검정한다. “예측적 인과성”이지 진정한 인과성이 아님에 주의한다.

시계열 교차 검증

일반적인 k-fold CV는 시계열에 적용할 수 없다. 미래 데이터로 과거를 예측하는 정보 누수가 발생하기 때문이다.

시계열 교차 검증 다이어그램 확장 윈도우 (Expanding Window): 학습 데이터의 시작은 고정, 끝을 점진적으로 확장 슬라이딩 윈도우 (Sliding Window): 학습 데이터의 크기를 고정하고 시작점을 이동

시나리오별 모델 선택 가이드

시나리오	데이터 규모	추천 모델	이유
빠른 베이스라인	소~중	ARIMA / ETS	구현 쉽고 해석 가능
강한 계절성 + 휴일	중	Prophet / SARIMA	계절성과 이벤트 처리 우수
다수 시계열 동시 예측	대	DeepAR / TFT	시계열 간 패턴 공유
장기 예측	중~대	PatchTST / N-HiTS	긴 수용 영역 처리
확률적 예측 필요	중~대	DeepAR / TFT / Conformal	불확실성 정량화
도메인 데이터 부족	소	TimesFM / Chronos	제로샷 예측 가능

언제 사용하는가 / 언제 피하는가

사용하기 좋은 경우

수요 예측 (Demand Forecasting): 재고 관리, 인력 배치, 마케팅 예산 배분
금융 시계열: 주가 변동성 예측 (주가 자체의 점 예측은 극도로 어려움), 리스크 관리
센서/IoT 데이터: 장비 상태 모니터링, 예지 보전(predictive maintenance)
이상 탐지 (Anomaly Detection): 예측값과 실제값의 괴리를 이상 스코어로 활용
에너지 부하 예측: 전력 수요, 태양광 발전량

피해야 하는 경우

비시간적 데이터: 시간 순서가 의미 없는 데이터에 시계열 모델을 억지로 적용하지 않는다
매우 짧은 시계열에 복잡한 모델: 수십 개 데이터 포인트에 LSTM을 적용하는 것은 과적합의 지름길이다. 단순 지수 평활이나 ARIMA가 낫다
빈번한 체제 전환 (Regime Change): 과거 패턴이 미래에 지속된다는 기본 가정이 무너지면 모든 시계열 모델이 고전한다
인과적 추론이 목적인 경우: 시계열 모델은 예측에 특화되어 있으며, 인과 관계 추론에는 별도의 프레임워크(차분법, 도구 변수 등)가 필요하다

실전 사례

M4 예측 대회 — 통계적 방법이 딥러닝을 이긴 교훈

2018년 Makridakis et al.이 주관한 M4 대회(M4 Competition)는 시계열 예측 분야에서 가장 권위 있는 벤치마크로, 100,000개의 시계열 데이터에 대해 다양한 예측 방법의 성능을 체계적으로 비교하였다. 결과는 많은 딥러닝 연구자들에게 충격을 주었다.

핵심 발견: 순수 딥러닝 모델(LSTM, CNN 등)은 대부분의 경우 전통적인 통계 모델(ETS, ARIMA)보다 성능이 떨어졌다. 개별 시계열의 길이가 짧고 다양성이 큰 상황에서, 딥러닝 모델은 충분한 학습 데이터를 확보하지 못해 오히려 과적합되거나 패턴을 학습하지 못하는 경우가 빈번하였다.

우승 모델 — ES-RNN: 대회 우승자 Slawek Smyl(Uber)의 ES-RNN은 지수 평활(Exponential Smoothing)의 통계적 구조와 RNN의 비선형 학습 능력을 결합한 하이브리드 모델이었다. 이 결과는 “통계 vs 딥러닝”이라는 이분법적 사고에서 벗어나, 두 접근의 장점을 결합하는 것이 최선이라는 교훈을 남겼다.

이후 영향: M4 대회의 교훈은 N-BEATS, TFT 등 후속 딥러닝 모델의 설계에 큰 영향을 미쳤다. N-BEATS는 통계 모델의 분해(decomposition) 아이디어를 신경망에 내재화하였고, 이후 M5 대회(2020)에서는 LightGBM 기반 모델이 우승하며, 시계열 예측에서 “만능 모델”은 없으며 데이터 특성에 맞는 모델 선택이 핵심이라는 메시지를 다시 한번 확인시켰다.

흔한 오해와 함정

1. “LSTM이 항상 ARIMA보다 낫다”

Makridakis et al.의 M4 대회 (2018) 결과를 보면, 순수 통계 모델이 단순 DL 모델을 이기는 경우가 빈번하다. 데이터가 적거나 패턴이 단순하면 ARIMA/ETS가 LSTM보다 우수한 경우가 많다. 우승 모델(ES-RNN)은 통계와 DL의 하이브리드였다.

2. “무작위 분할해도 괜찮다”

시계열에서 무작위 train/test 분할은 미래 정보가 학습에 사용되는 심각한 데이터 누수를 발생시킨다. 반드시 시간 순서를 유지한 분할을 사용해야 한다. 자세한 내용은 데이터 누수를 참고한다.

3. “정상성 확인을 건너뛰어도 된다”

ARIMA 계열 모델은 정상 시계열을 전제로 한다. 비정상 시계열에 직접 적용하면 허위 회귀(spurious regression)가 발생하여 의미 없는 결과를 얻는다. 딥러닝 모델이라도 정상성 변환이 성능을 향상시키는 경우가 많다.

4. “장기 예측도 정확할 것이다”

예측 지평이 길어질수록 오차가 지수적으로 누적된다. 장기 예측은 점 예측의 정확도보다 불확실성 구간의 유효성이 더 중요하다.

5. “데이터가 많으면 항상 좋다”

오래된 데이터가 현재 패턴과 무관하거나 체제 전환 이전의 데이터인 경우, 오히려 모델 성능을 저해한다. “관련 있는 데이터”의 양이 중요하다.

6. 선행 편향 (Look-ahead Bias)

특성 공학 단계에서 미래 정보가 스며드는 미묘한 형태의 데이터 누수이다. 이동 평균 계산 시 현재 시점 이후의 값을 포함하거나, 정규화에 전체 시계열의 통계량을 사용하는 것이 대표적이다. 특성 공학에서 다루는 원칙을 시간 축에도 엄격히 적용해야 한다.

다른 주제와의 연결

RNN/LSTM/GRU: 시계열 딥러닝의 기초가 되는 순환 신경망 아키텍처
Transformer: PatchTST, TFT 등 시계열 Transformer의 기반
어텐션 메커니즘: TFT의 변수 선택 및 시간 어텐션의 이론적 기초
손실 함수: MSE, MAE, 핀볼 손실 등 시계열 평가 지표의 기초
특성 공학: 래그 특성, 이동 평균, 시간 인코딩 등 시계열 특성 설계
평가 지표: MAPE, RMSE, MASE 등 시계열 전용 지표
정규화: 시계열 DL 모델의 과적합 방지
앙상블 방법: 통계 + DL 모델 앙상블이 실무에서 강력한 성능을 보임
데이터 누수: 시계열에서 특히 치명적인 시간 기반 누수
MLOps: 시계열 모델의 지속적 재학습 및 드리프트 탐지

참고 문헌

Hyndman, R. J., & Athanasopoulos, G. (2021). Forecasting: Principles and Practice (3rd ed.). OTexts.
Box, G. E. P. et al. (2015). Time Series Analysis: Forecasting and Control (5th ed.). Wiley.
Lim, B. et al. (2021). Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting. International Journal of Forecasting.
Oreshkin, B. N. et al. (2020). N-BEATS: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting. ICLR.
Nie, Y. et al. (2023). A Time Series is Worth 64 Words: Long-term Forecasting with Transformers. ICLR.