윤리적 AI (Ethical AI)¶

개요¶

AI 시스템은 학습 데이터, 모델 설계, 배포 방식에 내재된 편향(bias)을 반영하고 증폭시킬 수 있다. 윤리적 AI는 공정성(fairness), 설명 가능성(explainability), 책임성(accountability)을 고려하여, AI 시스템이 사회적으로 유익하고 해를 최소화하도록 하는 것을 목표로 한다. 이는 기술적 문제일 뿐 아니라 사회적, 법적, 철학적 문제이기도 하다.

핵심 개념¶

1. 학습 데이터의 편향 (Bias in Training Data)¶

편향 유형	설명	예시
Historical Bias	과거의 차별이 데이터에 반영	과거 채용 데이터에 성별 편향
Representation Bias	특정 그룹의 과소/과대 대표	얼굴 인식 데이터의 인종 불균형
Measurement Bias	측정 방법 자체의 편향	특정 지역의 범죄 보고 편향
Selection Bias	데이터 수집 과정의 편향	온라인 설문의 디지털 격차

실제 사례: - Amazon 채용 AI: 이력서 평가 모델이 여성 지원자를 체계적으로 불리하게 평가 (과거 채용 데이터의 성별 편향 학습) - 얼굴 인식: 어두운 피부색에서 오인식률이 높음 (학습 데이터의 인종 불균형) - COMPAS 재범 예측: 흑인 피고인에 대한 false positive 비율이 더 높음

2. 공정성 지표 (Fairness Metrics)¶

지표	정의	수식
Demographic Parity	그룹 간 긍정 예측 비율 동일	\(P(\hat{Y}=1\\|A=0) = P(\hat{Y}=1\\|A=1)\)
Equalized Odds	그룹 간 TPR, FPR 동일	\(P(\hat{Y}=1\\|Y=y, A=0) = P(\hat{Y}=1\\|Y=y, A=1)\)
Predictive Parity	그룹 간 PPV 동일	\(P(Y=1\\|\hat{Y}=1, A=0) = P(Y=1\\|\hat{Y}=1, A=1)\)

불가능성 정리 (Impossibility Theorem): Chouldechova (2017)는 기저율(base rate)이 다른 그룹에 대해 Demographic Parity, Equalized Odds, Predictive Parity를 동시에 만족시키는 것이 불가능함을 증명하였다.

→ 어떤 공정성 기준을 우선할지는 도메인과 맥락에 따른 가치 판단의 문제이다.

3. 설명 가능성 (Explainability)¶

SHAP (SHapley Additive exPlanations)¶

게임 이론의 Shapley value에 기반한 설명 도구이다.

모델 불가지론적(model-agnostic): 어떤 모델에도 적용 가능
지역적 + 전역적 설명: 개별 예측과 전체 모델 모두 설명
시각화: Summary plot, Dependence plot, Force plot

LIME (Local Interpretable Model-agnostic Explanations)¶

개별 예측 주변에서 해석 가능한 모델(선형 모델)을 학습하여 설명한다.

빠르지만 불안정할 수 있음 (동일 입력에 다른 설명이 나올 수 있음)

기타 설명 기법¶

기법	적용 대상	방법
Grad-CAM	CNN	기울기 기반 클래스 활성화 맵
Attention Visualization	Transformer	어텐션 가중치 시각화
Integrated Gradients	신경망	입력 기여도의 적분
Decision Tree 추출	복잡한 모델	모사 모델로 규칙 추출

Intrinsic vs Post-hoc: - Intrinsic: 본래 해석 가능한 모델 (선형 회귀, 결정 트리, 규칙 기반) - Post-hoc: 사후에 설명을 생성하는 도구 (SHAP, LIME, Grad-CAM)

4. 책임 있는 AI 실천 (Responsible AI Practices)¶

실천 항목	설명
모델 카드 (Model Cards)	모델의 용도, 한계, 평가 결과 문서화
데이터시트 (Datasheets)	데이터 수집 과정, 편향 위험 문서화
영향 평가 (Impact Assessment)	배포 전 사회적 영향 분석
Human-in-the-Loop	고위험 결정에 인간 검토 포함
정기적 감사 (Audit)	모델의 공정성을 지속적으로 평가

상세 내용¶

공정성-정확도 Trade-off¶

graph LR
    A["높은 정확도<br>편향 가능"] --- B["정확도-공정성<br>Trade-off"]
    B --- C["높은 공정성<br>정확도 감소 가능"]

    D["목표: 최적 균형점 찾기<br>도메인/맥락에 따라 다름"]

편향 완화 기법¶

시점	기법	설명
학습 전	데이터 균형화, 리샘플링	편향된 데이터 보정
학습 중	공정성 제약 추가, 적대적 학습	모델이 보호 속성에 무관하도록
학습 후	임계값 조정, 보정(calibration)	그룹별 결정 경계 조정

AI 규제 동향¶

EU AI Act: 고위험 AI 시스템에 대한 투명성, 공정성, 인간 감독 요구
미국: 부문별 규제 (금융, 의료, 채용 등)
한국: AI 윤리 기준, 개인정보보호법

언제 사용하는가¶

윤리적 AI 고려는 모든 ML 프로젝트에 적용되어야 하지만, 특히:

상황	윤리적 고려 수준
채용, 대출, 보험 결정	매우 높음 (법적 규제)
의료 진단	매우 높음 (생명 관련)
형사 사법	매우 높음 (자유 관련)
추천 시스템	높음 (필터 버블, 편향 강화)
광고 타겟팅	중간 (차별 가능성)
연구/내부 도구	기본 (데이터 편향 인식)

흔한 오해와 함정¶

"모델이 보호 속성을 사용하지 않으면 공정하다": 보호 속성(성별, 인종)을 제거해도 proxy variable(우편번호, 이름)을 통해 간접적으로 학습한다.
"공정성 지표 하나만 만족하면 된다": 불가능성 정리에 의해 모든 기준을 동시에 만족할 수 없다. 어떤 기준이 맥락에 적합한지 신중히 선택해야 한다.
"SHAP/LIME이 모델을 완전히 설명한다": 이들은 근사적 설명이며, 모델의 실제 의사결정 과정을 완벽히 반영하지 않을 수 있다.
"기술적으로 해결할 수 있다": 공정성은 기술적 문제인 동시에 사회적, 철학적 문제이다. 이해 관계자, 영향 받는 집단과의 대화가 필수적이다.
"편향은 데이터만의 문제": 편향은 문제 정의, 라벨링, 특성 선택, 모델 설계, 평가 지표 선택 등 ML 파이프라인의 모든 단계에서 발생한다.

다른 주제와의 연결¶

ML을 사용하지 말아야 할 때: 윤리적 제약으로 ML 부적합
불균형 데이터: 소수 그룹 성능
특성 선택: SHAP 기반 설명
흔한 실수: 잘못된 지표 선택
ML 시스템 설계 패턴: 모니터링과 피드백 루프
생성 모델: 딥페이크의 윤리적 문제
LLM: RLHF와 AI 안전