대규모 언어 모델 (Large Language Models, LLM)¶

개요¶

대규모 언어 모델(LLM)은 수십~수천억 개의 파라미터를 가진 Transformer 기반 언어 모델로, 대규모 텍스트 데이터에서 사전 학습(pre-training)된 후 다양한 과제에 적용된다. GPT, BERT, LLaMA, Claude 등이 대표적이며, 텍스트 생성, 질의응답, 번역, 코드 생성 등 광범위한 NLP 과제에서 인간 수준에 근접하거나 이를 넘어서는 성능을 보여주고 있다.

핵심 개념¶

1. 토큰화 (Tokenization)¶

텍스트를 모델이 처리할 수 있는 토큰 단위로 분할하는 과정이다.

방법	설명	사용 모델
BPE (Byte Pair Encoding)	가장 빈번한 바이트 쌍을 반복 병합	GPT, LLaMA
WordPiece	BPE 유사, likelihood 기반 병합	BERT
SentencePiece	언어 독립적, Unigram 모델 포함	T5, LLaMA

한국어 특수성: 한국어는 교착어로, 형태소 분석 기반 토큰화가 효과적이다. 자모 분리, 음절 단위, 형태소 단위 등 다양한 접근이 존재한다.

Vocabulary 크기: 너무 작으면 OOV(미등록어) 문제, 너무 크면 희소 토큰 문제. GPT-4는 ~100K, LLaMA는 32K~128K.

2. 사전 학습 목적 함수 (Pre-training Objectives)¶

목적 함수	방향	수식	대표 모델
Causal LM (CLM)	단방향 (→)	\(P(x_t \\| x_{<t})\)	GPT
Masked LM (MLM)	양방향	\(P(x_t \\| x_{\backslash t})\)	BERT
Span Corruption	양방향	연속 토큰 구간 마스킹	T5
Prefix LM	혼합	일부 양방향 + 일부 단방향	UniLM

BERT MLM 상세: 입력의 15%를 선택하여: - 80%는 [MASK]로 대체 - 10%는 랜덤 토큰으로 대체 - 10%는 원본 유지

3. 스케일링 법칙 (Scaling Laws)¶

Kaplan et al. (2020)¶

모델의 loss는 모델 크기(\(N\)), 데이터 크기(\(D\)), 계산량(\(C\))의 power law를 따른다:

\[L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}\]

Chinchilla (Hoffmann et al., 2022)¶

최적 배분: 모델과 데이터를 동일 비율로 확장해야 한다. - 70B 모델보다 작지만 더 많은 데이터로 학습한 모델이 더 우수 - 시사점: 대부분의 LLM이 under-trained (데이터 대비 모델이 너무 큼)

4. RLHF (Reinforcement Learning from Human Feedback)¶

사전 학습된 LLM을 인간의 선호도에 맞게 정렬(align)하는 기법이다.

flowchart LR
    A["1. SFT<br>Supervised Fine-Tuning<br>시범 데이터로 미세 조정"] --> B["2. Reward Model<br>인간 선호도 데이터로<br>보상 모델 학습"]
    B --> C["3. PPO<br>보상 모델로<br>정책 최적화"]

DPO (Direct Preference Optimization): 보상 모델 없이 직접 선호도를 학습한다. RLHF보다 단순하면서 유사한 성능을 달성한다.

Constitutional AI (CAI): AI가 원칙에 따라 자기 비평(self-critique)과 수정을 수행한다.

5. Prompt Engineering 기초¶

기법	설명	예시
Zero-shot	예시 없이 지시만	"이 문장을 번역하세요:"
Few-shot / ICL	입력에 예시 포함	"예시: ... → ... \n 질문: ..."
Chain-of-Thought	단계별 추론 유도	"단계별로 생각해보세요."
Role Prompting	역할/맥락 설정	"당신은 경험 많은 의사입니다."

Prompt 설계 원칙: 1. 구체적이고 명확하게 2. 구조화된 출력 형식 요청 3. 관련 맥락 제공 4. 예시를 포함 (few-shot)

6. LLM 추론 최적화¶

기법	설명
KV-Cache	Key/Value를 캐시하여 재계산 방지
Speculative Decoding	작은 모델로 초안, 큰 모델로 검증
Continuous Batching	동적으로 배치 구성 (요청 완료 시 즉시 새 요청 추가)
Quantization	GPTQ, AWQ, GGUF로 모델 크기 축소
GQA/MQA	Key/Value head 수를 줄여 메모리 절감

7. 주요 모델 계보¶

timeline
    title LLM 발전 타임라인
    2018 : GPT-1 (OpenAI), BERT (Google)
    2019 : GPT-2, RoBERTa, T5
    2020 : GPT-3 (175B) — In-Context Learning
    2022 : ChatGPT, Chinchilla, LLaMA
    2023 : GPT-4, LLaMA 2, Claude 2, Mistral
    2024 : LLaMA 3, Claude 3, Gemma, Qwen 2
    2025 : Claude 4, Gemini 2, DeepSeek

상세 내용¶

Tokenization이 모델 성능에 미치는 영향¶

한국어에서 영어 중심 토크나이저를 사용하면: - 한국어 한 글자가 여러 토큰으로 분해 → 토큰 효율 저하 - 동일한 문맥 길이에서 처리할 수 있는 텍스트 양 감소 - 비용 증가 (API 기준 토큰당 과금)

한국어에 최적화된 토크나이저를 사용하면 2~3배 효율 향상이 가능하다.

Emergent Abilities (창발적 능력)¶

특정 모델 규모 이상에서 갑자기 나타나는 능력: - Chain-of-Thought 추론 - 산술 연산 - 코드 생성

그러나 최근 연구는 이것이 평가 방법론의 아티팩트일 수 있다고 제안한다 (Schaeffer et al., 2023).

언제 사용하는가¶

상황	LLM 적합도	대안
범용 텍스트 생성	매우 적합	-
특정 도메인 분류	적합 (few-shot)	Fine-tuned BERT
대화형 AI	매우 적합	-
정형 데이터 분석	부적합	XGBoost, 통계 모델
실시간 짧은 지연시간	도전적	경량 모델
100% 정확도 필요	부적합	규칙 기반

흔한 오해와 함정¶

"LLM은 진실을 말한다": LLM은 학습 데이터의 패턴을 재생성한다. Hallucination(환각)이 발생하여 사실이 아닌 내용을 자신감 있게 생성할 수 있다.
"모델이 클수록 항상 좋다": Chinchilla 연구가 보여주듯, 모델 크기보다 학습 데이터 양과의 균형이 중요하다.
"Prompt만 잘 짜면 된다": Prompt Engineering은 유용하지만, 구조적 한계가 있다. 특정 도메인에서는 fine-tuning이 필수적이다.
"LLM이 모든 NLP 과제를 대체한다": 짧은 지연시간, 높은 처리량, 저비용이 필요한 경우 소형 특화 모델이 더 적합하다.
API 비용 과소평가: 대규모 서비스에서 LLM API 비용은 매우 빠르게 증가한다. 비용 최적화 전략이 필요하다.

다른 주제와의 연결¶

Transformer: LLM의 기반 아키텍처
전이 학습: 사전 학습 + Fine-tuning / PEFT
어텐션 메커니즘: Multi-Head Attention, Flash Attention
모델 배포: 양자화, 서빙 최적화
Self-Supervised Learning: 사전 학습 방법론
Few-Shot/Zero-Shot: In-Context Learning
MLOps: LLM 서빙 및 모니터링
윤리적 AI: LLM의 편향과 안전