대규모 언어 모델 (Large Language Models, LLM)
핵심 요약: 수십억 개의 파라미터를 가진 텍스트 생성 모델 — GPT, Claude, LLaMA 등이 대표적이다. 대규모 텍스트로 사전학습(Pre-training)한 뒤, RLHF(인간 피드백 강화학습)로 인간의 의도에 정렬한다.
초보자를 위한 핵심 용어
섹션 제목: “초보자를 위한 핵심 용어”- LLM(Large Language Model): 수십~수천억 개의 파라미터를 가진 대규모 언어 모델. “다음 단어 예측”을 통해 언어를 학습한다.
- 토큰(Token): 모델이 텍스트를 처리하는 최소 단위. 영어 단어 1개가 보통 1
2토큰, 한글은 한 글자가 23토큰으로 분해될 수 있다. - RLHF(Reinforcement Learning from Human Feedback): 인간 평가자가 “어떤 답변이 더 좋은지” 비교 데이터를 만들고, 이를 통해 모델을 인간의 선호에 맞게 정렬하는 학습 방법.
- 환각(Hallucination): 모델이 사실이 아닌 내용을 자신감 있게 생성하는 현상. LLM은 “패턴 재생성 장치”이지 사실 검증 도구가 아니다.
- Prompt Engineering: 모델에 입력하는 질문/지시를 잘 설계하여 원하는 결과를 얻는 기법. “단계별로 생각해보세요”가 대표적 예시.
대규모 언어 모델(LLM)은 수십~수천억 개의 파라미터를 가진 Transformer 기반 언어 모델로, 대규모 텍스트 데이터에서 사전 학습(pre-training)된 후 다양한 과제에 적용된다. GPT, BERT, LLaMA, Claude 등이 대표적이며, 텍스트 생성, 질의응답, 번역, 코드 생성 등 광범위한 NLP 과제에서 인간 수준에 근접하거나 이를 넘어서는 성능을 보여주고 있다.
탄생 배경
섹션 제목: “탄생 배경”LLM의 역사는 하나의 논문에서 시작된다. 2017년 Google Brain 팀이 발표한 “Attention Is All You Need”는 RNN/LSTM을 대체하는 Transformer 아키텍처를 제안했고, 이것이 이후 모든 LLM의 기반이 되었다.
- 2018년 GPT-1 (OpenAI): 1.17억 파라미터. Transformer 디코더로 비지도 사전 학습 후 fine-tuning하는 패러다임을 제시했다
- 2018년 BERT (Google): 3.4억 파라미터. 양방향 Masked Language Model로 NLP 벤치마크를 석권했다
- 2019년 GPT-2 (OpenAI): 15억 파라미터. “너무 위험해서 공개할 수 없다”며 단계적 공개로 AI 윤리 논쟁을 촉발했다
- 2020년 GPT-3 (OpenAI): 1,750억 파라미터. Few-shot learning과 In-Context Learning 능력을 보여주며, 스케일링의 위력을 증명했다
- 2022년 ChatGPT (OpenAI): GPT-3.5에 RLHF를 적용하여 출시. 2개월 만에 1억 사용자를 돌파하며 AI를 대중화시켰다
- 2023~2024년: GPT-4, Claude, Gemini, LLaMA 등이 경쟁하며 멀티모달, 긴 컨텍스트, 추론 능력 등에서 급속한 발전이 이루어졌다
이 타임라인의 핵심 교훈은 스케일링(모델 크기 + 데이터 크기 + 계산량)이 질적 변화를 만든다는 것이다.
핵심 개념
섹션 제목: “핵심 개념”1. 토큰화 (Tokenization)
섹션 제목: “1. 토큰화 (Tokenization)”텍스트를 모델이 처리할 수 있는 토큰 단위로 분할하는 과정이다.
| 방법 | 설명 | 사용 모델 |
|---|---|---|
| BPE (Byte Pair Encoding) | 가장 빈번한 바이트 쌍을 반복 병합 | GPT, LLaMA |
| WordPiece | BPE 유사, likelihood 기반 병합 | BERT |
| SentencePiece | 언어 독립적, Unigram 모델 포함 | T5, LLaMA |
한국어 특수성: 한국어는 교착어로, 형태소 분석 기반 토큰화가 효과적이다. 자모 분리, 음절 단위, 형태소 단위 등 다양한 접근이 존재한다.
Vocabulary 크기: 너무 작으면 OOV(미등록어) 문제, 너무 크면 희소 토큰 문제. GPT-4는 100K, LLaMA는 32K128K.
2. 사전 학습 목적 함수 (Pre-training Objectives)
섹션 제목: “2. 사전 학습 목적 함수 (Pre-training Objectives)”| 목적 함수 | 방향 | 수식 | 대표 모델 |
|---|---|---|---|
| Causal LM (CLM) | 단방향 (→) | GPT | |
| Masked LM (MLM) | 양방향 | BERT | |
| Span Corruption | 양방향 | 연속 토큰 구간 마스킹 | T5 |
| Prefix LM | 혼합 | 일부 양방향 + 일부 단방향 | UniLM |
BERT MLM 상세: 입력의 15%를 선택하여:
- 80%는 [MASK]로 대체
- 10%는 랜덤 토큰으로 대체
- 10%는 원본 유지
3. 스케일링 법칙 (Scaling Laws)
섹션 제목: “3. 스케일링 법칙 (Scaling Laws)”Kaplan et al. (2020)
섹션 제목: “Kaplan et al. (2020)”모델의 loss는 모델 크기(), 데이터 크기(), 계산량()의 power law를 따른다:
Chinchilla (Hoffmann et al., 2022)
섹션 제목: “Chinchilla (Hoffmann et al., 2022)”최적 배분: 모델과 데이터를 동일 비율로 확장해야 한다.
- 70B 모델보다 작지만 더 많은 데이터로 학습한 모델이 더 우수
- 시사점: 대부분의 LLM이 under-trained (데이터 대비 모델이 너무 큼)
4. RLHF (Reinforcement Learning from Human Feedback)
섹션 제목: “4. RLHF (Reinforcement Learning from Human Feedback)”사전 학습된 LLM을 인간의 선호도에 맞게 정렬(align)하는 기법이다.
DPO (Direct Preference Optimization): 보상 모델 없이 직접 선호도를 학습한다. RLHF보다 단순하면서 유사한 성능을 달성한다.
Constitutional AI (CAI): AI가 원칙에 따라 자기 비평(self-critique)과 수정을 수행한다.
5. Prompt Engineering 기초
섹션 제목: “5. Prompt Engineering 기초”| 기법 | 설명 | 예시 |
|---|---|---|
| Zero-shot | 예시 없이 지시만 | ”이 문장을 번역하세요:“ |
| Few-shot / ICL | 입력에 예시 포함 | ”예시: … → … \n 질문: …” |
| Chain-of-Thought | 단계별 추론 유도 | ”단계별로 생각해보세요.” |
| Role Prompting | 역할/맥락 설정 | ”당신은 경험 많은 의사입니다.” |
Prompt 설계 원칙:
- 구체적이고 명확하게
- 구조화된 출력 형식 요청
- 관련 맥락 제공
- 예시를 포함 (few-shot)
6. LLM 추론 최적화
섹션 제목: “6. LLM 추론 최적화”| 기법 | 설명 |
|---|---|
| KV-Cache | Key/Value를 캐시하여 재계산 방지 |
| Speculative Decoding | 작은 모델로 초안, 큰 모델로 검증 |
| Continuous Batching | 동적으로 배치 구성 (요청 완료 시 즉시 새 요청 추가) |
| Quantization | GPTQ, AWQ, GGUF로 모델 크기 축소 |
| GQA/MQA | Key/Value head 수를 줄여 메모리 절감 |
7. 주요 모델 계보
섹션 제목: “7. 주요 모델 계보”상세 내용
섹션 제목: “상세 내용”Tokenization이 모델 성능에 미치는 영향
섹션 제목: “Tokenization이 모델 성능에 미치는 영향”한국어에서 영어 중심 토크나이저를 사용하면:
- 한국어 한 글자가 여러 토큰으로 분해 → 토큰 효율 저하
- 동일한 문맥 길이에서 처리할 수 있는 텍스트 양 감소
- 비용 증가 (API 기준 토큰당 과금)
한국어에 최적화된 토크나이저를 사용하면 2~3배 효율 향상이 가능하다.
Emergent Abilities (창발적 능력)
섹션 제목: “Emergent Abilities (창발적 능력)”특정 모델 규모 이상에서 갑자기 나타나는 능력:
- Chain-of-Thought 추론
- 산술 연산
- 코드 생성
그러나 최근 연구는 이것이 평가 방법론의 아티팩트일 수 있다고 제안한다 (Schaeffer et al., 2023).
언제 사용하는가
섹션 제목: “언제 사용하는가”| 상황 | LLM 적합도 | 대안 |
|---|---|---|
| 범용 텍스트 생성 | 매우 적합 | - |
| 특정 도메인 분류 | 적합 (few-shot) | Fine-tuned BERT |
| 대화형 AI | 매우 적합 | - |
| 정형 데이터 분석 | 부적합 | XGBoost, 통계 모델 |
| 실시간 짧은 지연시간 | 도전적 | 경량 모델 |
| 100% 정확도 필요 | 부적합 | 규칙 기반 |
실전 사례
섹션 제목: “실전 사례”LLM 환각: 가짜 판례를 법정에 제출한 변호사
섹션 제목: “LLM 환각: 가짜 판례를 법정에 제출한 변호사”2023년, 뉴욕의 변호사 Steven Schwartz는 항공사를 상대로 한 소송에서 ChatGPT를 사용하여 관련 판례를 조사했다. ChatGPT는 자신감 있는 어조로 6건의 판례를 인용했고, 변호사는 이를 검증하지 않은 채 법정 문서에 그대로 제출했다. 그러나 판사가 확인한 결과, 6건 모두 실존하지 않는 가짜 판례였다:
- ChatGPT가 생성한 판례명, 사건 번호, 인용 문구는 모두 그럴듯해 보였지만, 실제로 존재하지 않는 환각(Hallucination)이었다
- 변호사는 법원 제재를 받았으며, 이 사건은 LLM의 사실성 한계를 전 세계에 알리는 계기가 되었다
- 이후 여러 법원에서 AI 생성 콘텐츠의 사실 확인을 의무화하는 규정을 도입했다
이 사례에서 얻을 수 있는 교훈:
- LLM은 패턴 재생성 장치이지 사실 검증 도구가 아니다. 출력은 항상 독립적으로 검증해야 한다
- 자신감 있는 어조가 정확성을 보장하지 않는다. LLM은 틀린 내용도 확신에 찬 문체로 생성한다
- 고위험 도메인(법률, 의료, 금융)에서는 RAG(Retrieval-Augmented Generation)나 사실 확인 파이프라인이 필수적이다
흔한 오해와 함정
섹션 제목: “흔한 오해와 함정”-
“LLM은 진실을 말한다”: LLM은 학습 데이터의 패턴을 재생성한다. Hallucination(환각)이 발생하여 사실이 아닌 내용을 자신감 있게 생성할 수 있다.
-
“모델이 클수록 항상 좋다”: Chinchilla 연구가 보여주듯, 모델 크기보다 학습 데이터 양과의 균형이 중요하다.
-
“Prompt만 잘 짜면 된다”: Prompt Engineering은 유용하지만, 구조적 한계가 있다. 특정 도메인에서는 fine-tuning이 필수적이다.
-
“LLM이 모든 NLP 과제를 대체한다”: 짧은 지연시간, 높은 처리량, 저비용이 필요한 경우 소형 특화 모델이 더 적합하다.
-
API 비용 과소평가: 대규모 서비스에서 LLM API 비용은 매우 빠르게 증가한다. 비용 최적화 전략이 필요하다.
다른 주제와의 연결
섹션 제목: “다른 주제와의 연결”- Transformer: LLM의 기반 아키텍처
- 전이 학습: 사전 학습 + Fine-tuning / PEFT
- 어텐션 메커니즘: Multi-Head Attention, Flash Attention
- 모델 배포: 양자화, 서빙 최적화
- Self-Supervised Learning: 사전 학습 방법론
- Few-Shot/Zero-Shot: In-Context Learning
- MLOps: LLM 서빙 및 모니터링
- 윤리적 AI: LLM의 편향과 안전