신경망 기초 (Neural Network Basics)

핵심 요약: 뉴런(Neuron)을 쌓아 복잡한 패턴을 학습하는 것이 신경망의 핵심이다. 입력에 가중치(Weight)를 곱하고 편향(Bias)을 더한 뒤 활성화 함수(Activation Function)를 통과시키며, 은닉층(Hidden Layer)이 많아질수록 더 정교한 표현이 가능해진다.

개요

신경망(Neural Network)은 생물학적 뉴런의 작동 원리에서 영감을 받은 수학적 모델이다. 입력 데이터에 가중치(weight)를 곱하고, 편향(bias)을 더한 뒤, 비선형 활성화 함수(activation function)를 통과시켜 출력을 생성한다. 단일 퍼셉트론(Perceptron)에서 시작하여 다층 퍼셉트론(MLP)으로 확장되면서, 현대 딥러닝의 기반이 되었다.

일상적 비유: 은닉층(hidden layer)은 요리의 중간 과정과 같다. 밀가루와 달걀(입력)을 직접 빵(출력)으로 만들 수는 없다. 반드시 반죽이라는 중간 단계(은닉층)를 거쳐야 비로소 원하는 결과물이 나온다. 은닉층이 많아질수록 더 정교한 “조리 과정”을 표현할 수 있다.

탄생 배경

신경망의 역사는 기대와 좌절의 반복이다.

McCulloch-Pitts 뉴런 (1943): 신경과학자 Warren McCulloch와 논리학자 Walter Pitts가 생물학적 뉴런을 수학적으로 모델링한 최초의 시도이다. “뉴런은 논리 게이트처럼 작동할 수 있다”는 아이디어를 제시했지만, 학습 능력은 없었다.
Rosenblatt의 퍼셉트론 (1958): Frank Rosenblatt이 학습 가능한 단층 퍼셉트론을 발명했다. 뉴욕 타임스는 “해군이 생각하는 기계의 원형을 공개했다”고 대서특필했을 만큼 큰 기대를 모았다.
Minsky의 XOR 비판 (1969): Marvin Minsky와 Seymour Papert이 저서 Perceptrons에서 단층 퍼셉트론이 XOR 같은 단순한 문제도 풀 수 없음을 수학적으로 증명했다. 이 비판은 신경망 연구에 대한 펀딩을 끊어버리는 결정적 계기가 되었다.
AI 겨울 (1969~1985): 약 10년 이상의 암흑기가 이어졌다. 연구비가 끊기고, 학계에서 신경망은 “실패한 접근법”으로 취급받았다.
Rumelhart의 역전파 (1986): David Rumelhart, Geoffrey Hinton, Ronald Williams가 다층 퍼셉트론을 효과적으로 학습시키는 역전파(backpropagation) 알고리즘을 대중화하면서, 신경망 연구가 부활했다. 은닉층이 있는 네트워크가 XOR을 포함한 비선형 문제를 해결할 수 있음을 실증적으로 보여주었다.

핵심 개념

1. 퍼셉트론 (Perceptron)

퍼셉트론은 가장 단순한 형태의 신경망으로, 단일 뉴런을 모델링한다.

$\hat{y} = f\left(\sum_{i=1}^{n} w_i x_i + b\right) = f(\mathbf{w}^T \mathbf{x} + b)$

여기서:

$x_i$ : 입력 특성
$w_i$ : 각 입력에 대한 가중치
$b$ : 편향 (bias)
$f$ : 활성화 함수 (단층 퍼셉트론에서는 step function)

단층 퍼셉트론의 한계: 선형 분리(Linearly Separable)가 가능한 문제만 해결할 수 있다. 선형 분리란 하나의 직선(또는 초평면)으로 두 클래스를 나눌 수 있는 경우를 말한다. 대표적인 반례가 XOR 문제로, Minsky와 Papert(1969)가 증명하였다.

1. 퍼셉트론 (Perceptron) 다이어그램

숫자로 이해하기

구체적인 숫자로 퍼셉트론의 계산 과정을 따라가 보자.

입력(Input): $[0.5, 0.3]$ — 모델에 들어가는 데이터 값
가중치(Weight): $[0.4, 0.6]$ — 각 입력의 중요도를 결정하는 학습 가능한 값
편향(Bias): $0.1$ — 결정 경계(Decision Boundary)를 이동시키는 상수
활성화 함수(Activation Function): ReLU — 음수는 0으로, 양수는 그대로 출력하는 함수

계산 과정:

가중합(Weighted Sum): $0.5 \times 0.4 + 0.3 \times 0.6 + 0.1 = 0.20 + 0.18 + 0.1 = 0.48$
활성화: $\text{ReLU}(0.48) = 0.48$ (양수이므로 그대로 통과)

만약 가중합 결과가 $-0.3$ 이었다면, $\text{ReLU}(-0.3) = 0$ 이 되어 이 뉴런은 “비활성(Off)” 상태가 된다.

2. 다층 퍼셉트론 (Multi-Layer Perceptron, MLP)

XOR 문제를 해결하기 위해 은닉층(hidden layer)을 추가한 구조이다.

구조: 입력층(Input Layer) → 은닉층(Hidden Layer, 1개 이상) → 출력층(Output Layer)

각 층의 연산:

$\mathbf{h}^{[l]} = \sigma\left(\mathbf{W}^{[l]} \mathbf{h}^{[l-1]} + \mathbf{b}^{[l]}\right)$

2. 다층 퍼셉트론 (Multi-Layer Perceptron, MLP) 다이어그램 비선형성(Non-linearity)의 필요성: 선형 변환의 합성은 여전히 선형이다. 즉, 활성화 함수 없이 층을 아무리 쌓아도 $\mathbf{W}_2 \mathbf{W}_1 \mathbf{x} = \mathbf{W}' \mathbf{x}$ 와 동일하다. 비선형 활성화 함수가 있어야만 네트워크에 표현력(expressiveness)이 생긴다.

깊이(Depth) vs 너비(Width):

특성	넓은 네트워크 (Wide)	깊은 네트워크 (Deep)
파라미터 효율성	낮음	높음 (동일 함수를 더 적은 뉴런으로 표현)
학습 난이도	상대적으로 쉬움	기울기 소실/폭발 문제
표현력	이론적으로 충분	계층적 추상화 가능
실제 성능	일정 수준 이상에서 포화	복잡한 패턴에서 우수

3. 범용 근사 정리 (Universal Approximation Theorem)

충분한 너비의 단일 은닉층 네트워크는 임의의 연속 함수를 원하는 정밀도로 근사할 수 있다. (Cybenko, 1989; Hornik, 1991)

핵심 조건:

활성화 함수가 비상수(non-constant)
유계(bounded)
단조증가(monotonically increasing)

깊이의 이점: 깊은 네트워크는 동일한 함수를 지수적으로 적은 뉴런으로 표현할 수 있다 (Eldan & Shamir, 2016).

주의: “근사 가능(approximable)“과 “학습 가능(learnable)“은 다르다. 이 정리는 존재성(existence) 정리이지, 구성적(constructive) 정리가 아니다. “한 층이면 충분하다”는 의미가 아니며, 실제로는 깊은 네트워크가 훨씬 효율적이다.

4. 순전파 (Forward Pass)

입력 데이터가 네트워크를 통과하며 예측을 생성하는 과정이다.

$\mathbf{z}^{[l]} = \mathbf{W}^{[l]} \mathbf{a}^{[l-1]} + \mathbf{b}^{[l]}$ $\mathbf{a}^{[l]} = \sigma(\mathbf{z}^{[l]})$

여기서 $\mathbf{a}^{[0]} = \mathbf{x}$ (입력)이며, 최종 출력은 $\mathbf{a}^{[L]}$ 이다.

배치 처리: 여러 샘플을 행렬로 묶어 병렬 계산할 수 있다. 이를 통해 GPU의 병렬 연산 능력을 최대한 활용한다.

Training vs Inference: forward pass의 연산 자체는 동일하지만, 학습 시에는 역전파(backpropagation)를 위해 각 층의 중간 값( $\mathbf{z}^{[l]}$ , $\mathbf{a}^{[l]}$ )을 저장해야 한다.

5. 손실 함수 (Loss Functions)

모델의 예측과 실제 값의 차이를 정량화하는 함수이다. 손실(Loss)이 작을수록 모델의 예측이 정확하다는 뜻이며, 학습의 목표는 이 손실을 최소화하는 것이다.

회귀 (Regression)

손실 함수	수식	특징
MSE (Mean Squared Error)	$\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$	이상치에 민감, 미분 용이
MAE (Mean Absolute Error)	$\frac{1}{n}\sum_{i=1}^{n}\\|y_i - \hat{y}_i\\|$	이상치에 강건, 0에서 미분 불가
Huber Loss	MSE와 MAE의 결합	이상치에 강건하면서 미분 가능

분류 (Classification)

손실 함수	수식	사용처
Binary Cross-Entropy	$-[y\log(\hat{y}) + (1-y)\log(1-\hat{y})]$	이진 분류
Categorical Cross-Entropy	$-\sum_{i} y_i \log(\hat{y}_i)$	다중 클래스 분류

상세 내용

XOR 문제와 MLP의 해결

XOR 함수는 두 입력이 같으면 0, 다르면 1을 출력한다. 이는 단일 직선으로 분리할 수 없기 때문에 단층 퍼셉트론으로는 해결할 수 없다.

MLP는 은닉층을 통해 입력 공간을 비선형적으로 변환하여, 원래는 선형 분리가 불가능했던 데이터를 분리 가능한 형태로 만든다. 이것이 바로 딥러닝의 핵심 아이디어인 표현 학습(representation learning) 의 시초이다.

출력층 활성화와 손실 함수의 조합

과제	출력층 활성화	손실 함수
이진 분류	Sigmoid	Binary Cross-Entropy
다중 클래스 분류	Softmax	Categorical Cross-Entropy
회귀	없음 (Linear)	MSE / MAE

언제 사용하는가

MLP: 정형 데이터(tabular data)에서 비선형 관계를 모델링할 때
입력이 고정 길이 벡터이고, 공간적/시간적 구조가 없을 때
기준 모델(baseline): 더 복잡한 아키텍처(CNN, RNN, Transformer)를 적용하기 전에 MLP로 먼저 기준 성능을 확인

단, 이미지에는 CNN, 시퀀스에는 RNN 또는 Transformer가 더 적합하다.

실전 사례

XOR 문제가 AI 연구를 10년 정체시킨 이야기

1969년 Minsky와 Papert의 Perceptrons 출판은 AI 역사상 가장 큰 논쟁 중 하나를 촉발했다. XOR(배타적 논리합)은 두 입력이 같으면 0, 다르면 1을 출력하는 극히 단순한 함수이다. 그런데 단층 퍼셉트론으로는 이 함수를 절대로 학습할 수 없다는 것이 수학적으로 증명되었다.

문제의 핵심은 XOR이 선형 분리 불가능(linearly inseparable)하다는 점이다. 2차원 평면에 XOR의 네 점을 찍으면, 어떤 직선으로도 0과 1을 완벽히 나눌 수 없다. 이 한계가 당시 연구자들에게는 “신경망은 근본적으로 한계가 있다”는 메시지로 받아들여졌다.

그러나 Minsky의 비판에는 중요한 맹점이 있었다. 다층 퍼셉트론(MLP)은 은닉층을 통해 입력 공간을 비선형적으로 변환할 수 있으므로 XOR을 쉽게 해결한다. 실제로 은닉 뉴런 2개만 있으면 XOR을 완벽히 학습할 수 있다. 문제는 당시에 다층 네트워크를 효과적으로 학습시킬 알고리즘이 없었다는 것이다.

1986년 역전파 알고리즘이 대중화되면서 이 공백이 메워졌고, XOR 문제는 오히려 “왜 깊이(depth)가 중요한가”를 설명하는 교과서적 사례가 되었다. 이 사건은 하나의 한계가 전체 분야를 10년간 멈출 수 있다는 교훈을 남겼으며, 기술적 비판과 그에 대한 과잉 반응이 혁신을 지연시킬 수 있음을 보여준다.

흔한 오해와 함정

“층을 많이 쌓으면 항상 좋다”: 깊이가 증가하면 기울기 소실/폭발 문제가 심화된다. 적절한 초기화와 정규화가 필수이다.
“범용 근사 정리 때문에 한 층이면 충분하다”: 이론적으로 가능하지만, 필요한 뉴런 수가 지수적으로 커질 수 있어 실용적이지 않다.
출력층 활성화와 손실 함수 불일치: 예를 들어, sigmoid 출력에 MSE를 사용하면 학습 초기에 기울기가 매우 작아져 수렴이 극도로 느려진다. 반드시 적합한 조합을 사용해야 한다.
편향(bias)을 생략: 편향 없이는 모든 결정 경계가 원점을 지나야 하므로, 모델의 표현력이 크게 제한된다.

다른 주제와의 연결

활성화 함수: 비선형성을 부여하는 핵심 요소
역전파: 신경망의 학습 알고리즘
가중치 초기화: 학습 시작점의 중요성
정규화: 학습 안정화 기법
CNN: 이미지 데이터에 특화된 신경망
RNN/LSTM/GRU: 시퀀스 데이터에 특화된 신경망
Transformer: 현대 딥러닝의 지배적 아키텍처