대규모 언어 모델 (Large Language Models, LLM)¶
개요¶
대규모 언어 모델(LLM)은 수십~수천억 개의 파라미터를 가진 Transformer 기반 언어 모델로, 대규모 텍스트 데이터에서 사전 학습(pre-training)된 후 다양한 과제에 적용된다. GPT, BERT, LLaMA, Claude 등이 대표적이며, 텍스트 생성, 질의응답, 번역, 코드 생성 등 광범위한 NLP 과제에서 인간 수준에 근접하거나 이를 넘어서는 성능을 보여주고 있다.
핵심 개념¶
1. 토큰화 (Tokenization)¶
텍스트를 모델이 처리할 수 있는 토큰 단위로 분할하는 과정이다.
| 방법 | 설명 | 사용 모델 |
|---|---|---|
| BPE (Byte Pair Encoding) | 가장 빈번한 바이트 쌍을 반복 병합 | GPT, LLaMA |
| WordPiece | BPE 유사, likelihood 기반 병합 | BERT |
| SentencePiece | 언어 독립적, Unigram 모델 포함 | T5, LLaMA |
한국어 특수성: 한국어는 교착어로, 형태소 분석 기반 토큰화가 효과적이다. 자모 분리, 음절 단위, 형태소 단위 등 다양한 접근이 존재한다.
Vocabulary 크기: 너무 작으면 OOV(미등록어) 문제, 너무 크면 희소 토큰 문제. GPT-4는 ~100K, LLaMA는 32K~128K.
2. 사전 학습 목적 함수 (Pre-training Objectives)¶
| 목적 함수 | 방향 | 수식 | 대표 모델 |
|---|---|---|---|
| Causal LM (CLM) | 단방향 (→) | \(P(x_t \| x_{<t})\) | GPT |
| Masked LM (MLM) | 양방향 | \(P(x_t \| x_{\backslash t})\) | BERT |
| Span Corruption | 양방향 | 연속 토큰 구간 마스킹 | T5 |
| Prefix LM | 혼합 | 일부 양방향 + 일부 단방향 | UniLM |
BERT MLM 상세: 입력의 15%를 선택하여: - 80%는 [MASK]로 대체 - 10%는 랜덤 토큰으로 대체 - 10%는 원본 유지
3. 스케일링 법칙 (Scaling Laws)¶
Kaplan et al. (2020)¶
모델의 loss는 모델 크기(\(N\)), 데이터 크기(\(D\)), 계산량(\(C\))의 power law를 따른다:
Chinchilla (Hoffmann et al., 2022)¶
최적 배분: 모델과 데이터를 동일 비율로 확장해야 한다. - 70B 모델보다 작지만 더 많은 데이터로 학습한 모델이 더 우수 - 시사점: 대부분의 LLM이 under-trained (데이터 대비 모델이 너무 큼)
4. RLHF (Reinforcement Learning from Human Feedback)¶
사전 학습된 LLM을 인간의 선호도에 맞게 정렬(align)하는 기법이다.
flowchart LR
A["1. SFT<br>Supervised Fine-Tuning<br>시범 데이터로 미세 조정"] --> B["2. Reward Model<br>인간 선호도 데이터로<br>보상 모델 학습"]
B --> C["3. PPO<br>보상 모델로<br>정책 최적화"] DPO (Direct Preference Optimization): 보상 모델 없이 직접 선호도를 학습한다. RLHF보다 단순하면서 유사한 성능을 달성한다.
Constitutional AI (CAI): AI가 원칙에 따라 자기 비평(self-critique)과 수정을 수행한다.
5. Prompt Engineering 기초¶
| 기법 | 설명 | 예시 |
|---|---|---|
| Zero-shot | 예시 없이 지시만 | "이 문장을 번역하세요:" |
| Few-shot / ICL | 입력에 예시 포함 | "예시: ... → ... \n 질문: ..." |
| Chain-of-Thought | 단계별 추론 유도 | "단계별로 생각해보세요." |
| Role Prompting | 역할/맥락 설정 | "당신은 경험 많은 의사입니다." |
Prompt 설계 원칙: 1. 구체적이고 명확하게 2. 구조화된 출력 형식 요청 3. 관련 맥락 제공 4. 예시를 포함 (few-shot)
6. LLM 추론 최적화¶
| 기법 | 설명 |
|---|---|
| KV-Cache | Key/Value를 캐시하여 재계산 방지 |
| Speculative Decoding | 작은 모델로 초안, 큰 모델로 검증 |
| Continuous Batching | 동적으로 배치 구성 (요청 완료 시 즉시 새 요청 추가) |
| Quantization | GPTQ, AWQ, GGUF로 모델 크기 축소 |
| GQA/MQA | Key/Value head 수를 줄여 메모리 절감 |
7. 주요 모델 계보¶
timeline
title LLM 발전 타임라인
2018 : GPT-1 (OpenAI), BERT (Google)
2019 : GPT-2, RoBERTa, T5
2020 : GPT-3 (175B) — In-Context Learning
2022 : ChatGPT, Chinchilla, LLaMA
2023 : GPT-4, LLaMA 2, Claude 2, Mistral
2024 : LLaMA 3, Claude 3, Gemma, Qwen 2
2025 : Claude 4, Gemini 2, DeepSeek 상세 내용¶
Tokenization이 모델 성능에 미치는 영향¶
한국어에서 영어 중심 토크나이저를 사용하면: - 한국어 한 글자가 여러 토큰으로 분해 → 토큰 효율 저하 - 동일한 문맥 길이에서 처리할 수 있는 텍스트 양 감소 - 비용 증가 (API 기준 토큰당 과금)
한국어에 최적화된 토크나이저를 사용하면 2~3배 효율 향상이 가능하다.
Emergent Abilities (창발적 능력)¶
특정 모델 규모 이상에서 갑자기 나타나는 능력: - Chain-of-Thought 추론 - 산술 연산 - 코드 생성
그러나 최근 연구는 이것이 평가 방법론의 아티팩트일 수 있다고 제안한다 (Schaeffer et al., 2023).
언제 사용하는가¶
| 상황 | LLM 적합도 | 대안 |
|---|---|---|
| 범용 텍스트 생성 | 매우 적합 | - |
| 특정 도메인 분류 | 적합 (few-shot) | Fine-tuned BERT |
| 대화형 AI | 매우 적합 | - |
| 정형 데이터 분석 | 부적합 | XGBoost, 통계 모델 |
| 실시간 짧은 지연시간 | 도전적 | 경량 모델 |
| 100% 정확도 필요 | 부적합 | 규칙 기반 |
흔한 오해와 함정¶
-
"LLM은 진실을 말한다": LLM은 학습 데이터의 패턴을 재생성한다. Hallucination(환각)이 발생하여 사실이 아닌 내용을 자신감 있게 생성할 수 있다.
-
"모델이 클수록 항상 좋다": Chinchilla 연구가 보여주듯, 모델 크기보다 학습 데이터 양과의 균형이 중요하다.
-
"Prompt만 잘 짜면 된다": Prompt Engineering은 유용하지만, 구조적 한계가 있다. 특정 도메인에서는 fine-tuning이 필수적이다.
-
"LLM이 모든 NLP 과제를 대체한다": 짧은 지연시간, 높은 처리량, 저비용이 필요한 경우 소형 특화 모델이 더 적합하다.
-
API 비용 과소평가: 대규모 서비스에서 LLM API 비용은 매우 빠르게 증가한다. 비용 최적화 전략이 필요하다.
다른 주제와의 연결¶
- Transformer: LLM의 기반 아키텍처
- 전이 학습: 사전 학습 + Fine-tuning / PEFT
- 어텐션 메커니즘: Multi-Head Attention, Flash Attention
- 모델 배포: 양자화, 서빙 최적화
- Self-Supervised Learning: 사전 학습 방법론
- Few-Shot/Zero-Shot: In-Context Learning
- MLOps: LLM 서빙 및 모니터링
- 윤리적 AI: LLM의 편향과 안전