윤리적 AI (Ethical AI)

핵심 요약: AI가 편향되지 않고 공정하게 작동하는지 확인해야 한다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 그대로 학습하고 증폭시킨다.

초보자를 위한 핵심 용어

편향(Bias): 모델이 특정 그룹을 불공정하게 대우하는 경향. 학습 데이터에 담긴 역사적 차별이 주된 원인이다.
공정성(Fairness): 모델의 예측이 성별, 인종 등 보호 속성에 관계없이 동등한 품질을 제공하는 것.
설명 가능성(Explainability): 모델이 왜 그런 예측을 했는지 이해할 수 있는 능력. SHAP, LIME 등의 도구가 대표적.
프록시 변수(Proxy Variable): 보호 속성(성별)을 직접 사용하지 않아도, 간접적으로 성별을 추론할 수 있는 변수. 예: 여자 대학교 이름, 특정 동아리.

개요

AI 시스템은 학습 데이터, 모델 설계, 배포 방식에 내재된 편향(bias)을 반영하고 증폭시킬 수 있다. 윤리적 AI는 공정성(fairness), 설명 가능성(explainability), 책임성(accountability)을 고려하여, AI 시스템이 사회적으로 유익하고 해를 최소화하도록 하는 것을 목표로 한다. 이는 기술적 문제일 뿐 아니라 사회적, 법적, 철학적 문제이기도 하다.

비유: 편향(Bias)은 “깨진 거울”과 같다. 모델은 데이터에 있는 역사적 차별을 반사할 뿐이다. 거울이 왜곡되어 있으면 비춰지는 상(像)도 왜곡된다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 충실히 학습하고, 더 나아가 증폭시킨다. 거울을 탓하기 전에, 거울에 비추는 것(데이터)을 먼저 점검해야 한다.

탄생 배경

AI 윤리가 학문적 논의에서 법률과 규제의 영역으로 이동한 것은, 2016년부터 2020년 사이에 연이어 터진 대형 사건들 때문이었다.

주요 사건 타임라인:

연도	사건	영향
2016	COMPAS 재범 예측 편향 폭로 (ProPublica)	흑인 피고인의 False Positive 비율이 백인의 2배. AI 공정성 논의의 시발점
2016	Microsoft Tay 챗봇 사건	출시 24시간 만에 인종차별 발언 학습. AI 안전 문제 부각
2018	Amazon 채용 AI 편향 발견 및 폐기	여성 지원자를 체계적으로 불이익. 기업 AI 윤리 감사 필요성 대두
2019	Apple Card 성차별 논란	동일 조건에서 여성의 신용 한도가 낮게 설정. 금융 AI 규제 강화
2020	Clearview AI 논란	수십억 장의 얼굴 이미지를 무단 수집하여 안면인식 DB 구축. 개인정보와 감시 문제
2020	영국 A-Level 알고리즘 사태	COVID-19로 시험 취소 후 알고리즘으로 성적 산출, 저소득층 학생 불이익. 결국 철회

학문에서 법률로의 전환:

이러한 사건들이 축적되면서, AI 윤리는 더 이상 “있으면 좋은 것(nice-to-have)“이 아니라 “반드시 있어야 하는 것(must-have)“으로 인식이 전환되었다.

2018: EU의 GDPR 시행으로 “자동화된 의사결정에 대한 설명 요구권”이 법적 권리로 확립
2019: OECD AI 원칙 채택, 42개국이 AI 윤리 가이드라인에 합의
2021: EU AI Act 초안 발표, 고위험 AI 시스템에 대한 법적 규제 프레임워크 제시
2024: EU AI Act 최종 시행, 세계 최초의 포괄적 AI 규제법

AI 윤리는 이제 기술자의 선의에 의존하는 것이 아니라, 법률과 규제에 의해 강제되는 엔지니어링 요구사항이 되었다.

핵심 개념

1. 학습 데이터의 편향 (Bias in Training Data)

편향 유형	설명	예시
Historical Bias	과거의 차별이 데이터에 반영	과거 채용 데이터에 성별 편향
Representation Bias	특정 그룹의 과소/과대 대표	얼굴 인식 데이터의 인종 불균형
Measurement Bias	측정 방법 자체의 편향	특정 지역의 범죄 보고 편향
Selection Bias	데이터 수집 과정의 편향	온라인 설문의 디지털 격차

실제 사례:

Amazon 채용 AI: 이력서 평가 모델이 여성 지원자를 체계적으로 불리하게 평가 (과거 채용 데이터의 성별 편향 학습)
얼굴 인식: 어두운 피부색에서 오인식률이 높음 (학습 데이터의 인종 불균형)
COMPAS 재범 예측: 흑인 피고인에 대한 false positive 비율이 더 높음

2. 공정성 지표 (Fairness Metrics)

지표	정의	수식
Demographic Parity	그룹 간 긍정 예측 비율 동일	$P(\hat{Y}=1\\|A=0) = P(\hat{Y}=1\\|A=1)$
Equalized Odds	그룹 간 TPR, FPR 동일	$P(\hat{Y}=1\\|Y=y, A=0) = P(\hat{Y}=1\\|Y=y, A=1)$
Predictive Parity	그룹 간 PPV 동일	$P(Y=1\\|\hat{Y}=1, A=0) = P(Y=1\\|\hat{Y}=1, A=1)$

불가능성 정리 (Impossibility Theorem): Chouldechova (2017)는 기저율(base rate)이 다른 그룹에 대해 Demographic Parity, Equalized Odds, Predictive Parity를 동시에 만족시키는 것이 불가능함을 증명하였다.

→ 어떤 공정성 기준을 우선할지는 도메인과 맥락에 따른 가치 판단의 문제이다.

3. 설명 가능성 (Explainability)

SHAP (SHapley Additive exPlanations)

게임 이론의 Shapley value에 기반한 설명 도구이다.

모델 불가지론적(model-agnostic): 어떤 모델에도 적용 가능
지역적 + 전역적 설명: 개별 예측과 전체 모델 모두 설명
시각화: Summary plot, Dependence plot, Force plot

LIME (Local Interpretable Model-agnostic Explanations)

개별 예측 주변에서 해석 가능한 모델(선형 모델)을 학습하여 설명한다.

빠르지만 불안정할 수 있음 (동일 입력에 다른 설명이 나올 수 있음)

기타 설명 기법

기법	적용 대상	방법
Grad-CAM	CNN	기울기 기반 클래스 활성화 맵
Attention Visualization	Transformer	어텐션 가중치 시각화
Integrated Gradients	신경망	입력 기여도의 적분
Decision Tree 추출	복잡한 모델	모사 모델로 규칙 추출

Intrinsic vs Post-hoc:

Intrinsic: 본래 해석 가능한 모델 (선형 회귀, 결정 트리, 규칙 기반)
Post-hoc: 사후에 설명을 생성하는 도구 (SHAP, LIME, Grad-CAM)

4. 책임 있는 AI 실천 (Responsible AI Practices)

실천 항목	설명
모델 카드 (Model Cards)	모델의 용도, 한계, 평가 결과 문서화
데이터시트 (Datasheets)	데이터 수집 과정, 편향 위험 문서화
영향 평가 (Impact Assessment)	배포 전 사회적 영향 분석
Human-in-the-Loop	고위험 결정에 인간 검토 포함
정기적 감사 (Audit)	모델의 공정성을 지속적으로 평가

상세 내용

공정성-정확도 Trade-off

공정성-정확도 Trade-off 다이어그램

편향 완화 기법

시점	기법	설명
학습 전	데이터 균형화, 리샘플링	편향된 데이터 보정
학습 중	공정성 제약 추가, 적대적 학습	모델이 보호 속성에 무관하도록
학습 후	임계값 조정, 보정(calibration)	그룹별 결정 경계 조정

AI 규제 동향

EU AI Act: 고위험 AI 시스템에 대한 투명성, 공정성, 인간 감독 요구
미국: 부문별 규제 (금융, 의료, 채용 등)
한국: AI 윤리 기준, 개인정보보호법

언제 사용하는가

윤리적 AI 고려는 모든 ML 프로젝트에 적용되어야 하지만, 특히:

상황	윤리적 고려 수준
채용, 대출, 보험 결정	매우 높음 (법적 규제)
의료 진단	매우 높음 (생명 관련)
형사 사법	매우 높음 (자유 관련)
추천 시스템	높음 (필터 버블, 편향 강화)
광고 타겟팅	중간 (차별 가능성)
연구/내부 도구	기본 (데이터 편향 인식)

실전 사례

아마존 채용 AI의 흥망: 2014~2018

아마존의 채용 AI 시스템은 AI 윤리 분야에서 가장 많이 인용되는 사례 중 하나이다. 이 시스템의 전체 타임라인을 살펴보면, 편향이 어떻게 발생하고, 왜 수정이 어려운지를 명확히 이해할 수 있다.

전체 타임라인:

연도	단계	내용
2014	개발 시작	아마존의 ML 팀이 이력서 자동 평가 시스템 개발 착수. 과거 10년간의 채용 데이터를 학습 데이터로 사용
2015	편향 최초 발견	시스템이 “여성(women’s)“이라는 단어가 포함된 이력서에 감점을 부여한다는 것을 발견. 예: “여성 체스 클럽 회장” → 감점
2015~2016	1차 수정 시도	성별 관련 명시적 키워드를 제거. 그러나 모델은 프록시 변수(Proxy Variable)를 통해 성별을 간접적으로 학습 (예: 여자 대학교 이름, 특정 동아리)
2016~2017	2차 수정 시도	프록시 변수 제거 시도. 그러나 새로운 프록시가 계속 발견됨. 학습 데이터 자체가 남성 중심 채용 역사를 반영하고 있었기 때문
2017	근본적 한계 인식	팀은 학습 데이터의 Historical Bias를 기술적으로 완전히 제거하는 것이 불가능하다는 결론에 도달
2018	프로젝트 폐기	Reuters 보도 후 프로젝트 공식 폐기. 약 4년간의 개발 비용과 기회비용 손실

핵심 교훈:

Historical Bias는 특성 제거로 해결되지 않는다: 보호 속성(성별)을 직접 제거해도, 데이터 내 수천 개의 간접적 상관관계(프록시)를 통해 편향이 재현된다
학습 데이터가 차별적이면, 모델도 차별적이다: 과거 10년간 기술 업계가 남성 중심이었다는 역사적 사실이 데이터에 그대로 반영되어 있었다
기술적 수정만으로는 부족하다: 편향 문제는 데이터 수집 방법, 라벨 정의, 평가 기준 등 ML 파이프라인 전체에 대한 재설계가 필요하다
조기 발견이 중요하다: 2015년에 편향을 발견했지만, 3년간 기술적 수정을 시도하다가 결국 폐기했다. 초기 단계에서 학습 데이터의 편향을 평가하는 프로세스가 있었다면 비용을 크게 줄일 수 있었다

흔한 오해와 함정

“모델이 보호 속성을 사용하지 않으면 공정하다”: 보호 속성(성별, 인종)을 제거해도 proxy variable(우편번호, 이름)을 통해 간접적으로 학습한다.
“공정성 지표 하나만 만족하면 된다”: 불가능성 정리에 의해 모든 기준을 동시에 만족할 수 없다. 어떤 기준이 맥락에 적합한지 신중히 선택해야 한다.
“SHAP/LIME이 모델을 완전히 설명한다”: 이들은 근사적 설명이며, 모델의 실제 의사결정 과정을 완벽히 반영하지 않을 수 있다.
“기술적으로 해결할 수 있다”: 공정성은 기술적 문제인 동시에 사회적, 철학적 문제이다. 이해 관계자, 영향 받는 집단과의 대화가 필수적이다.
“편향은 데이터만의 문제”: 편향은 문제 정의, 라벨링, 특성 선택, 모델 설계, 평가 지표 선택 등 ML 파이프라인의 모든 단계에서 발생한다.

다른 주제와의 연결

ML을 사용하지 말아야 할 때: 윤리적 제약으로 ML 부적합
불균형 데이터: 소수 그룹 성능
특성 선택: SHAP 기반 설명
흔한 실수: 잘못된 지표 선택
ML 시스템 설계 패턴: 모니터링과 피드백 루프
생성 모델: 딥페이크의 윤리적 문제
LLM: RLHF와 AI 안전