윤리적 AI (Ethical AI)¶
개요¶
AI 시스템은 학습 데이터, 모델 설계, 배포 방식에 내재된 편향(bias)을 반영하고 증폭시킬 수 있다. 윤리적 AI는 공정성(fairness), 설명 가능성(explainability), 책임성(accountability)을 고려하여, AI 시스템이 사회적으로 유익하고 해를 최소화하도록 하는 것을 목표로 한다. 이는 기술적 문제일 뿐 아니라 사회적, 법적, 철학적 문제이기도 하다.
핵심 개념¶
1. 학습 데이터의 편향 (Bias in Training Data)¶
| 편향 유형 | 설명 | 예시 |
|---|---|---|
| Historical Bias | 과거의 차별이 데이터에 반영 | 과거 채용 데이터에 성별 편향 |
| Representation Bias | 특정 그룹의 과소/과대 대표 | 얼굴 인식 데이터의 인종 불균형 |
| Measurement Bias | 측정 방법 자체의 편향 | 특정 지역의 범죄 보고 편향 |
| Selection Bias | 데이터 수집 과정의 편향 | 온라인 설문의 디지털 격차 |
실제 사례: - Amazon 채용 AI: 이력서 평가 모델이 여성 지원자를 체계적으로 불리하게 평가 (과거 채용 데이터의 성별 편향 학습) - 얼굴 인식: 어두운 피부색에서 오인식률이 높음 (학습 데이터의 인종 불균형) - COMPAS 재범 예측: 흑인 피고인에 대한 false positive 비율이 더 높음
2. 공정성 지표 (Fairness Metrics)¶
| 지표 | 정의 | 수식 |
|---|---|---|
| Demographic Parity | 그룹 간 긍정 예측 비율 동일 | \(P(\hat{Y}=1\|A=0) = P(\hat{Y}=1\|A=1)\) |
| Equalized Odds | 그룹 간 TPR, FPR 동일 | \(P(\hat{Y}=1\|Y=y, A=0) = P(\hat{Y}=1\|Y=y, A=1)\) |
| Predictive Parity | 그룹 간 PPV 동일 | \(P(Y=1\|\hat{Y}=1, A=0) = P(Y=1\|\hat{Y}=1, A=1)\) |
불가능성 정리 (Impossibility Theorem): Chouldechova (2017)는 기저율(base rate)이 다른 그룹에 대해 Demographic Parity, Equalized Odds, Predictive Parity를 동시에 만족시키는 것이 불가능함을 증명하였다.
→ 어떤 공정성 기준을 우선할지는 도메인과 맥락에 따른 가치 판단의 문제이다.
3. 설명 가능성 (Explainability)¶
SHAP (SHapley Additive exPlanations)¶
게임 이론의 Shapley value에 기반한 설명 도구이다.
- 모델 불가지론적(model-agnostic): 어떤 모델에도 적용 가능
- 지역적 + 전역적 설명: 개별 예측과 전체 모델 모두 설명
- 시각화: Summary plot, Dependence plot, Force plot
LIME (Local Interpretable Model-agnostic Explanations)¶
개별 예측 주변에서 해석 가능한 모델(선형 모델)을 학습하여 설명한다.
- 빠르지만 불안정할 수 있음 (동일 입력에 다른 설명이 나올 수 있음)
기타 설명 기법¶
| 기법 | 적용 대상 | 방법 |
|---|---|---|
| Grad-CAM | CNN | 기울기 기반 클래스 활성화 맵 |
| Attention Visualization | Transformer | 어텐션 가중치 시각화 |
| Integrated Gradients | 신경망 | 입력 기여도의 적분 |
| Decision Tree 추출 | 복잡한 모델 | 모사 모델로 규칙 추출 |
Intrinsic vs Post-hoc: - Intrinsic: 본래 해석 가능한 모델 (선형 회귀, 결정 트리, 규칙 기반) - Post-hoc: 사후에 설명을 생성하는 도구 (SHAP, LIME, Grad-CAM)
4. 책임 있는 AI 실천 (Responsible AI Practices)¶
| 실천 항목 | 설명 |
|---|---|
| 모델 카드 (Model Cards) | 모델의 용도, 한계, 평가 결과 문서화 |
| 데이터시트 (Datasheets) | 데이터 수집 과정, 편향 위험 문서화 |
| 영향 평가 (Impact Assessment) | 배포 전 사회적 영향 분석 |
| Human-in-the-Loop | 고위험 결정에 인간 검토 포함 |
| 정기적 감사 (Audit) | 모델의 공정성을 지속적으로 평가 |
상세 내용¶
공정성-정확도 Trade-off¶
graph LR
A["높은 정확도<br>편향 가능"] --- B["정확도-공정성<br>Trade-off"]
B --- C["높은 공정성<br>정확도 감소 가능"]
D["목표: 최적 균형점 찾기<br>도메인/맥락에 따라 다름"] 편향 완화 기법¶
| 시점 | 기법 | 설명 |
|---|---|---|
| 학습 전 | 데이터 균형화, 리샘플링 | 편향된 데이터 보정 |
| 학습 중 | 공정성 제약 추가, 적대적 학습 | 모델이 보호 속성에 무관하도록 |
| 학습 후 | 임계값 조정, 보정(calibration) | 그룹별 결정 경계 조정 |
AI 규제 동향¶
- EU AI Act: 고위험 AI 시스템에 대한 투명성, 공정성, 인간 감독 요구
- 미국: 부문별 규제 (금융, 의료, 채용 등)
- 한국: AI 윤리 기준, 개인정보보호법
언제 사용하는가¶
윤리적 AI 고려는 모든 ML 프로젝트에 적용되어야 하지만, 특히:
| 상황 | 윤리적 고려 수준 |
|---|---|
| 채용, 대출, 보험 결정 | 매우 높음 (법적 규제) |
| 의료 진단 | 매우 높음 (생명 관련) |
| 형사 사법 | 매우 높음 (자유 관련) |
| 추천 시스템 | 높음 (필터 버블, 편향 강화) |
| 광고 타겟팅 | 중간 (차별 가능성) |
| 연구/내부 도구 | 기본 (데이터 편향 인식) |
흔한 오해와 함정¶
-
"모델이 보호 속성을 사용하지 않으면 공정하다": 보호 속성(성별, 인종)을 제거해도 proxy variable(우편번호, 이름)을 통해 간접적으로 학습한다.
-
"공정성 지표 하나만 만족하면 된다": 불가능성 정리에 의해 모든 기준을 동시에 만족할 수 없다. 어떤 기준이 맥락에 적합한지 신중히 선택해야 한다.
-
"SHAP/LIME이 모델을 완전히 설명한다": 이들은 근사적 설명이며, 모델의 실제 의사결정 과정을 완벽히 반영하지 않을 수 있다.
-
"기술적으로 해결할 수 있다": 공정성은 기술적 문제인 동시에 사회적, 철학적 문제이다. 이해 관계자, 영향 받는 집단과의 대화가 필수적이다.
-
"편향은 데이터만의 문제": 편향은 문제 정의, 라벨링, 특성 선택, 모델 설계, 평가 지표 선택 등 ML 파이프라인의 모든 단계에서 발생한다.
다른 주제와의 연결¶
- ML을 사용하지 말아야 할 때: 윤리적 제약으로 ML 부적합
- 불균형 데이터: 소수 그룹 성능
- 특성 선택: SHAP 기반 설명
- 흔한 실수: 잘못된 지표 선택
- ML 시스템 설계 패턴: 모니터링과 피드백 루프
- 생성 모델: 딥페이크의 윤리적 문제
- LLM: RLHF와 AI 안전