콘텐츠로 이동

대규모 언어 모델 (Large Language Models, LLM)

핵심 요약: 수십억 개의 파라미터를 가진 텍스트 생성 모델 — GPT, Claude, LLaMA 등이 대표적이다. 대규모 텍스트로 사전학습(Pre-training)한 뒤, RLHF(인간 피드백 강화학습)로 인간의 의도에 정렬한다.

  • LLM(Large Language Model): 수십~수천억 개의 파라미터를 가진 대규모 언어 모델. “다음 단어 예측”을 통해 언어를 학습한다.
  • 토큰(Token): 모델이 텍스트를 처리하는 최소 단위. 영어 단어 1개가 보통 12토큰, 한글은 한 글자가 23토큰으로 분해될 수 있다.
  • RLHF(Reinforcement Learning from Human Feedback): 인간 평가자가 “어떤 답변이 더 좋은지” 비교 데이터를 만들고, 이를 통해 모델을 인간의 선호에 맞게 정렬하는 학습 방법.
  • 환각(Hallucination): 모델이 사실이 아닌 내용을 자신감 있게 생성하는 현상. LLM은 “패턴 재생성 장치”이지 사실 검증 도구가 아니다.
  • Prompt Engineering: 모델에 입력하는 질문/지시를 잘 설계하여 원하는 결과를 얻는 기법. “단계별로 생각해보세요”가 대표적 예시.

대규모 언어 모델(LLM)은 수십~수천억 개의 파라미터를 가진 Transformer 기반 언어 모델로, 대규모 텍스트 데이터에서 사전 학습(pre-training)된 후 다양한 과제에 적용된다. GPT, BERT, LLaMA, Claude 등이 대표적이며, 텍스트 생성, 질의응답, 번역, 코드 생성 등 광범위한 NLP 과제에서 인간 수준에 근접하거나 이를 넘어서는 성능을 보여주고 있다.


LLM의 역사는 하나의 논문에서 시작된다. 2017년 Google Brain 팀이 발표한 “Attention Is All You Need”는 RNN/LSTM을 대체하는 Transformer 아키텍처를 제안했고, 이것이 이후 모든 LLM의 기반이 되었다.

  • 2018년 GPT-1 (OpenAI): 1.17억 파라미터. Transformer 디코더로 비지도 사전 학습 후 fine-tuning하는 패러다임을 제시했다
  • 2018년 BERT (Google): 3.4억 파라미터. 양방향 Masked Language Model로 NLP 벤치마크를 석권했다
  • 2019년 GPT-2 (OpenAI): 15억 파라미터. “너무 위험해서 공개할 수 없다”며 단계적 공개로 AI 윤리 논쟁을 촉발했다
  • 2020년 GPT-3 (OpenAI): 1,750억 파라미터. Few-shot learning과 In-Context Learning 능력을 보여주며, 스케일링의 위력을 증명했다
  • 2022년 ChatGPT (OpenAI): GPT-3.5에 RLHF를 적용하여 출시. 2개월 만에 1억 사용자를 돌파하며 AI를 대중화시켰다
  • 2023~2024년: GPT-4, Claude, Gemini, LLaMA 등이 경쟁하며 멀티모달, 긴 컨텍스트, 추론 능력 등에서 급속한 발전이 이루어졌다

이 타임라인의 핵심 교훈은 스케일링(모델 크기 + 데이터 크기 + 계산량)이 질적 변화를 만든다는 것이다.


텍스트를 모델이 처리할 수 있는 토큰 단위로 분할하는 과정이다.

방법설명사용 모델
BPE (Byte Pair Encoding)가장 빈번한 바이트 쌍을 반복 병합GPT, LLaMA
WordPieceBPE 유사, likelihood 기반 병합BERT
SentencePiece언어 독립적, Unigram 모델 포함T5, LLaMA

한국어 특수성: 한국어는 교착어로, 형태소 분석 기반 토큰화가 효과적이다. 자모 분리, 음절 단위, 형태소 단위 등 다양한 접근이 존재한다.

Vocabulary 크기: 너무 작으면 OOV(미등록어) 문제, 너무 크면 희소 토큰 문제. GPT-4는 100K, LLaMA는 32K128K.

2. 사전 학습 목적 함수 (Pre-training Objectives)

섹션 제목: “2. 사전 학습 목적 함수 (Pre-training Objectives)”
목적 함수방향수식대표 모델
Causal LM (CLM)단방향 (→)P(xtx<t)P(x_t \| x_{<t})GPT
Masked LM (MLM)양방향P(xtx\t)P(x_t \| x_{\backslash t})BERT
Span Corruption양방향연속 토큰 구간 마스킹T5
Prefix LM혼합일부 양방향 + 일부 단방향UniLM

BERT MLM 상세: 입력의 15%를 선택하여:

  • 80%는 [MASK]로 대체
  • 10%는 랜덤 토큰으로 대체
  • 10%는 원본 유지

모델의 loss는 모델 크기(NN), 데이터 크기(DD), 계산량(CC)의 power law를 따른다:

L(N)NαN,L(D)DαDL(N) \propto N^{-\alpha_N}, \quad L(D) \propto D^{-\alpha_D}

최적 배분: 모델과 데이터를 동일 비율로 확장해야 한다.

  • 70B 모델보다 작지만 더 많은 데이터로 학습한 모델이 더 우수
  • 시사점: 대부분의 LLM이 under-trained (데이터 대비 모델이 너무 큼)

4. RLHF (Reinforcement Learning from Human Feedback)

섹션 제목: “4. RLHF (Reinforcement Learning from Human Feedback)”

사전 학습된 LLM을 인간의 선호도에 맞게 정렬(align)하는 기법이다.

4. RLHF (Reinforcement Learning from Human Feedback) 다이어그램 DPO (Direct Preference Optimization): 보상 모델 없이 직접 선호도를 학습한다. RLHF보다 단순하면서 유사한 성능을 달성한다.

Constitutional AI (CAI): AI가 원칙에 따라 자기 비평(self-critique)과 수정을 수행한다.

기법설명예시
Zero-shot예시 없이 지시만”이 문장을 번역하세요:“
Few-shot / ICL입력에 예시 포함”예시: … → … \n 질문: …”
Chain-of-Thought단계별 추론 유도”단계별로 생각해보세요.”
Role Prompting역할/맥락 설정”당신은 경험 많은 의사입니다.”

Prompt 설계 원칙:

  1. 구체적이고 명확하게
  2. 구조화된 출력 형식 요청
  3. 관련 맥락 제공
  4. 예시를 포함 (few-shot)
기법설명
KV-CacheKey/Value를 캐시하여 재계산 방지
Speculative Decoding작은 모델로 초안, 큰 모델로 검증
Continuous Batching동적으로 배치 구성 (요청 완료 시 즉시 새 요청 추가)
QuantizationGPTQ, AWQ, GGUF로 모델 크기 축소
GQA/MQAKey/Value head 수를 줄여 메모리 절감

7. 주요 모델 계보 다이어그램

Tokenization이 모델 성능에 미치는 영향

섹션 제목: “Tokenization이 모델 성능에 미치는 영향”

한국어에서 영어 중심 토크나이저를 사용하면:

  • 한국어 한 글자가 여러 토큰으로 분해 → 토큰 효율 저하
  • 동일한 문맥 길이에서 처리할 수 있는 텍스트 양 감소
  • 비용 증가 (API 기준 토큰당 과금)

한국어에 최적화된 토크나이저를 사용하면 2~3배 효율 향상이 가능하다.

특정 모델 규모 이상에서 갑자기 나타나는 능력:

  • Chain-of-Thought 추론
  • 산술 연산
  • 코드 생성

그러나 최근 연구는 이것이 평가 방법론의 아티팩트일 수 있다고 제안한다 (Schaeffer et al., 2023).


상황LLM 적합도대안
범용 텍스트 생성매우 적합-
특정 도메인 분류적합 (few-shot)Fine-tuned BERT
대화형 AI매우 적합-
정형 데이터 분석부적합XGBoost, 통계 모델
실시간 짧은 지연시간도전적경량 모델
100% 정확도 필요부적합규칙 기반

LLM 환각: 가짜 판례를 법정에 제출한 변호사

섹션 제목: “LLM 환각: 가짜 판례를 법정에 제출한 변호사”

2023년, 뉴욕의 변호사 Steven Schwartz는 항공사를 상대로 한 소송에서 ChatGPT를 사용하여 관련 판례를 조사했다. ChatGPT는 자신감 있는 어조로 6건의 판례를 인용했고, 변호사는 이를 검증하지 않은 채 법정 문서에 그대로 제출했다. 그러나 판사가 확인한 결과, 6건 모두 실존하지 않는 가짜 판례였다:

  • ChatGPT가 생성한 판례명, 사건 번호, 인용 문구는 모두 그럴듯해 보였지만, 실제로 존재하지 않는 환각(Hallucination)이었다
  • 변호사는 법원 제재를 받았으며, 이 사건은 LLM의 사실성 한계를 전 세계에 알리는 계기가 되었다
  • 이후 여러 법원에서 AI 생성 콘텐츠의 사실 확인을 의무화하는 규정을 도입했다

이 사례에서 얻을 수 있는 교훈:

  1. LLM은 패턴 재생성 장치이지 사실 검증 도구가 아니다. 출력은 항상 독립적으로 검증해야 한다
  2. 자신감 있는 어조가 정확성을 보장하지 않는다. LLM은 틀린 내용도 확신에 찬 문체로 생성한다
  3. 고위험 도메인(법률, 의료, 금융)에서는 RAG(Retrieval-Augmented Generation)나 사실 확인 파이프라인이 필수적이다

  1. “LLM은 진실을 말한다”: LLM은 학습 데이터의 패턴을 재생성한다. Hallucination(환각)이 발생하여 사실이 아닌 내용을 자신감 있게 생성할 수 있다.

  2. “모델이 클수록 항상 좋다”: Chinchilla 연구가 보여주듯, 모델 크기보다 학습 데이터 양과의 균형이 중요하다.

  3. “Prompt만 잘 짜면 된다”: Prompt Engineering은 유용하지만, 구조적 한계가 있다. 특정 도메인에서는 fine-tuning이 필수적이다.

  4. “LLM이 모든 NLP 과제를 대체한다”: 짧은 지연시간, 높은 처리량, 저비용이 필요한 경우 소형 특화 모델이 더 적합하다.

  5. API 비용 과소평가: 대규모 서비스에서 LLM API 비용은 매우 빠르게 증가한다. 비용 최적화 전략이 필요하다.