대규모 언어 모델 (Large Language Models, LLM)

핵심 요약: 수십억 개의 파라미터를 가진 텍스트 생성 모델 — GPT, Claude, LLaMA 등이 대표적이다. 대규모 텍스트로 사전학습(Pre-training)한 뒤, RLHF(인간 피드백 강화학습)로 인간의 의도에 정렬한다.

초보자를 위한 핵심 용어

LLM(Large Language Model): 수십~수천억 개의 파라미터를 가진 대규모 언어 모델. “다음 단어 예측”을 통해 언어를 학습한다.
토큰(Token): 모델이 텍스트를 처리하는 최소 단위. 영어 단어 1개가 보통 1~~2토큰, 한글은 한 글자가 2~~3토큰으로 분해될 수 있다.
RLHF(Reinforcement Learning from Human Feedback): 인간 평가자가 “어떤 답변이 더 좋은지” 비교 데이터를 만들고, 이를 통해 모델을 인간의 선호에 맞게 정렬하는 학습 방법.
환각(Hallucination): 모델이 사실이 아닌 내용을 자신감 있게 생성하는 현상. LLM은 “패턴 재생성 장치”이지 사실 검증 도구가 아니다.
Prompt Engineering: 모델에 입력하는 질문/지시를 잘 설계하여 원하는 결과를 얻는 기법. “단계별로 생각해보세요”가 대표적 예시.

개요

대규모 언어 모델(LLM)은 수십~수천억 개의 파라미터를 가진 Transformer 기반 언어 모델로, 대규모 텍스트 데이터에서 사전 학습(pre-training)된 후 다양한 과제에 적용된다. GPT, BERT, LLaMA, Claude 등이 대표적이며, 텍스트 생성, 질의응답, 번역, 코드 생성 등 광범위한 NLP 과제에서 인간 수준에 근접하거나 이를 넘어서는 성능을 보여주고 있다.

탄생 배경

LLM의 역사는 하나의 논문에서 시작된다. 2017년 Google Brain 팀이 발표한 “Attention Is All You Need”는 RNN/LSTM을 대체하는 Transformer 아키텍처를 제안했고, 이것이 이후 모든 LLM의 기반이 되었다.

2018년 GPT-1 (OpenAI): 1.17억 파라미터. Transformer 디코더로 비지도 사전 학습 후 fine-tuning하는 패러다임을 제시했다
2018년 BERT (Google): 3.4억 파라미터. 양방향 Masked Language Model로 NLP 벤치마크를 석권했다
2019년 GPT-2 (OpenAI): 15억 파라미터. “너무 위험해서 공개할 수 없다”며 단계적 공개로 AI 윤리 논쟁을 촉발했다
2020년 GPT-3 (OpenAI): 1,750억 파라미터. Few-shot learning과 In-Context Learning 능력을 보여주며, 스케일링의 위력을 증명했다
2022년 ChatGPT (OpenAI): GPT-3.5에 RLHF를 적용하여 출시. 2개월 만에 1억 사용자를 돌파하며 AI를 대중화시켰다
2023~2024년: GPT-4, Claude, Gemini, LLaMA 등이 경쟁하며 멀티모달, 긴 컨텍스트, 추론 능력 등에서 급속한 발전이 이루어졌다

이 타임라인의 핵심 교훈은 스케일링(모델 크기 + 데이터 크기 + 계산량)이 질적 변화를 만든다는 것이다.

핵심 개념

1. 토큰화 (Tokenization)

텍스트를 모델이 처리할 수 있는 토큰 단위로 분할하는 과정이다.

방법	설명	사용 모델
BPE (Byte Pair Encoding)	가장 빈번한 바이트 쌍을 반복 병합	GPT, LLaMA
WordPiece	BPE 유사, likelihood 기반 병합	BERT
SentencePiece	언어 독립적, Unigram 모델 포함	T5, LLaMA

한국어 특수성: 한국어는 교착어로, 형태소 분석 기반 토큰화가 효과적이다. 자모 분리, 음절 단위, 형태소 단위 등 다양한 접근이 존재한다.

Vocabulary 크기: 너무 작으면 OOV(미등록어) 문제, 너무 크면 희소 토큰 문제. GPT-4는 ~~100K, LLaMA는 32K~~128K.

2. 사전 학습 목적 함수 (Pre-training Objectives)

목적 함수	방향	수식	대표 모델
Causal LM (CLM)	단방향 (→)	$P(x_t \\| x_{<t})$	GPT
Masked LM (MLM)	양방향	$P(x_t \\| x_{\backslash t})$	BERT
Span Corruption	양방향	연속 토큰 구간 마스킹	T5
Prefix LM	혼합	일부 양방향 + 일부 단방향	UniLM

BERT MLM 상세: 입력의 15%를 선택하여:

80%는 [MASK]로 대체
10%는 랜덤 토큰으로 대체
10%는 원본 유지

3. 스케일링 법칙 (Scaling Laws)

Kaplan et al. (2020)

모델의 loss는 모델 크기( $N$ ), 데이터 크기( $D$ ), 계산량( $C$ )의 power law를 따른다:

$L(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}$

Chinchilla (Hoffmann et al., 2022)

최적 배분: 모델과 데이터를 동일 비율로 확장해야 한다.

70B 모델보다 작지만 더 많은 데이터로 학습한 모델이 더 우수
시사점: 대부분의 LLM이 under-trained (데이터 대비 모델이 너무 큼)

4. RLHF (Reinforcement Learning from Human Feedback)

사전 학습된 LLM을 인간의 선호도에 맞게 정렬(align)하는 기법이다.

4. RLHF (Reinforcement Learning from Human Feedback) 다이어그램 DPO (Direct Preference Optimization): 보상 모델 없이 직접 선호도를 학습한다. RLHF보다 단순하면서 유사한 성능을 달성한다.

Constitutional AI (CAI): AI가 원칙에 따라 자기 비평(self-critique)과 수정을 수행한다.

5. Prompt Engineering 기초

기법	설명	예시
Zero-shot	예시 없이 지시만	”이 문장을 번역하세요:“
Few-shot / ICL	입력에 예시 포함	”예시: … → … \n 질문: …”
Chain-of-Thought	단계별 추론 유도	”단계별로 생각해보세요.”
Role Prompting	역할/맥락 설정	”당신은 경험 많은 의사입니다.”

Prompt 설계 원칙:

구체적이고 명확하게
구조화된 출력 형식 요청
관련 맥락 제공
예시를 포함 (few-shot)

6. LLM 추론 최적화

기법	설명
KV-Cache	Key/Value를 캐시하여 재계산 방지
Speculative Decoding	작은 모델로 초안, 큰 모델로 검증
Continuous Batching	동적으로 배치 구성 (요청 완료 시 즉시 새 요청 추가)
Quantization	GPTQ, AWQ, GGUF로 모델 크기 축소
GQA/MQA	Key/Value head 수를 줄여 메모리 절감

7. 주요 모델 계보

상세 내용

Tokenization이 모델 성능에 미치는 영향

한국어에서 영어 중심 토크나이저를 사용하면:

한국어 한 글자가 여러 토큰으로 분해 → 토큰 효율 저하
동일한 문맥 길이에서 처리할 수 있는 텍스트 양 감소
비용 증가 (API 기준 토큰당 과금)

한국어에 최적화된 토크나이저를 사용하면 2~3배 효율 향상이 가능하다.

Emergent Abilities (창발적 능력)

특정 모델 규모 이상에서 갑자기 나타나는 능력:

Chain-of-Thought 추론
산술 연산
코드 생성

그러나 최근 연구는 이것이 평가 방법론의 아티팩트일 수 있다고 제안한다 (Schaeffer et al., 2023).

언제 사용하는가

상황	LLM 적합도	대안
범용 텍스트 생성	매우 적합	-
특정 도메인 분류	적합 (few-shot)	Fine-tuned BERT
대화형 AI	매우 적합	-
정형 데이터 분석	부적합	XGBoost, 통계 모델
실시간 짧은 지연시간	도전적	경량 모델
100% 정확도 필요	부적합	규칙 기반

실전 사례

LLM 환각: 가짜 판례를 법정에 제출한 변호사

2023년, 뉴욕의 변호사 Steven Schwartz는 항공사를 상대로 한 소송에서 ChatGPT를 사용하여 관련 판례를 조사했다. ChatGPT는 자신감 있는 어조로 6건의 판례를 인용했고, 변호사는 이를 검증하지 않은 채 법정 문서에 그대로 제출했다. 그러나 판사가 확인한 결과, 6건 모두 실존하지 않는 가짜 판례였다:

ChatGPT가 생성한 판례명, 사건 번호, 인용 문구는 모두 그럴듯해 보였지만, 실제로 존재하지 않는 환각(Hallucination)이었다
변호사는 법원 제재를 받았으며, 이 사건은 LLM의 사실성 한계를 전 세계에 알리는 계기가 되었다
이후 여러 법원에서 AI 생성 콘텐츠의 사실 확인을 의무화하는 규정을 도입했다

이 사례에서 얻을 수 있는 교훈:

LLM은 패턴 재생성 장치이지 사실 검증 도구가 아니다. 출력은 항상 독립적으로 검증해야 한다
자신감 있는 어조가 정확성을 보장하지 않는다. LLM은 틀린 내용도 확신에 찬 문체로 생성한다
고위험 도메인(법률, 의료, 금융)에서는 RAG(Retrieval-Augmented Generation)나 사실 확인 파이프라인이 필수적이다

흔한 오해와 함정

“LLM은 진실을 말한다”: LLM은 학습 데이터의 패턴을 재생성한다. Hallucination(환각)이 발생하여 사실이 아닌 내용을 자신감 있게 생성할 수 있다.
“모델이 클수록 항상 좋다”: Chinchilla 연구가 보여주듯, 모델 크기보다 학습 데이터 양과의 균형이 중요하다.
“Prompt만 잘 짜면 된다”: Prompt Engineering은 유용하지만, 구조적 한계가 있다. 특정 도메인에서는 fine-tuning이 필수적이다.
“LLM이 모든 NLP 과제를 대체한다”: 짧은 지연시간, 높은 처리량, 저비용이 필요한 경우 소형 특화 모델이 더 적합하다.
API 비용 과소평가: 대규모 서비스에서 LLM API 비용은 매우 빠르게 증가한다. 비용 최적화 전략이 필요하다.

다른 주제와의 연결

Transformer: LLM의 기반 아키텍처
전이 학습: 사전 학습 + Fine-tuning / PEFT
어텐션 메커니즘: Multi-Head Attention, Flash Attention
모델 배포: 양자화, 서빙 최적화
Self-Supervised Learning: 사전 학습 방법론
Few-Shot/Zero-Shot: In-Context Learning
MLOps: LLM 서빙 및 모니터링
윤리적 AI: LLM의 편향과 안전