콘텐츠로 이동

윤리적 AI (Ethical AI)

핵심 요약: AI가 편향되지 않고 공정하게 작동하는지 확인해야 한다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 그대로 학습하고 증폭시킨다.

  • 편향(Bias): 모델이 특정 그룹을 불공정하게 대우하는 경향. 학습 데이터에 담긴 역사적 차별이 주된 원인이다.
  • 공정성(Fairness): 모델의 예측이 성별, 인종 등 보호 속성에 관계없이 동등한 품질을 제공하는 것.
  • 설명 가능성(Explainability): 모델이 왜 그런 예측을 했는지 이해할 수 있는 능력. SHAP, LIME 등의 도구가 대표적.
  • 프록시 변수(Proxy Variable): 보호 속성(성별)을 직접 사용하지 않아도, 간접적으로 성별을 추론할 수 있는 변수. 예: 여자 대학교 이름, 특정 동아리.

AI 시스템은 학습 데이터, 모델 설계, 배포 방식에 내재된 편향(bias)을 반영하고 증폭시킬 수 있다. 윤리적 AI는 공정성(fairness), 설명 가능성(explainability), 책임성(accountability)을 고려하여, AI 시스템이 사회적으로 유익하고 해를 최소화하도록 하는 것을 목표로 한다. 이는 기술적 문제일 뿐 아니라 사회적, 법적, 철학적 문제이기도 하다.

비유: 편향(Bias)은 “깨진 거울”과 같다. 모델은 데이터에 있는 역사적 차별을 반사할 뿐이다. 거울이 왜곡되어 있으면 비춰지는 상(像)도 왜곡된다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 충실히 학습하고, 더 나아가 증폭시킨다. 거울을 탓하기 전에, 거울에 비추는 것(데이터)을 먼저 점검해야 한다.


AI 윤리가 학문적 논의에서 법률과 규제의 영역으로 이동한 것은, 2016년부터 2020년 사이에 연이어 터진 대형 사건들 때문이었다.

주요 사건 타임라인:

연도사건영향
2016COMPAS 재범 예측 편향 폭로 (ProPublica)흑인 피고인의 False Positive 비율이 백인의 2배. AI 공정성 논의의 시발점
2016Microsoft Tay 챗봇 사건출시 24시간 만에 인종차별 발언 학습. AI 안전 문제 부각
2018Amazon 채용 AI 편향 발견 및 폐기여성 지원자를 체계적으로 불이익. 기업 AI 윤리 감사 필요성 대두
2019Apple Card 성차별 논란동일 조건에서 여성의 신용 한도가 낮게 설정. 금융 AI 규제 강화
2020Clearview AI 논란수십억 장의 얼굴 이미지를 무단 수집하여 안면인식 DB 구축. 개인정보와 감시 문제
2020영국 A-Level 알고리즘 사태COVID-19로 시험 취소 후 알고리즘으로 성적 산출, 저소득층 학생 불이익. 결국 철회

학문에서 법률로의 전환:

이러한 사건들이 축적되면서, AI 윤리는 더 이상 “있으면 좋은 것(nice-to-have)“이 아니라 “반드시 있어야 하는 것(must-have)“으로 인식이 전환되었다.

  • 2018: EU의 GDPR 시행으로 “자동화된 의사결정에 대한 설명 요구권”이 법적 권리로 확립
  • 2019: OECD AI 원칙 채택, 42개국이 AI 윤리 가이드라인에 합의
  • 2021: EU AI Act 초안 발표, 고위험 AI 시스템에 대한 법적 규제 프레임워크 제시
  • 2024: EU AI Act 최종 시행, 세계 최초의 포괄적 AI 규제법

AI 윤리는 이제 기술자의 선의에 의존하는 것이 아니라, 법률과 규제에 의해 강제되는 엔지니어링 요구사항이 되었다.


1. 학습 데이터의 편향 (Bias in Training Data)

섹션 제목: “1. 학습 데이터의 편향 (Bias in Training Data)”
편향 유형설명예시
Historical Bias과거의 차별이 데이터에 반영과거 채용 데이터에 성별 편향
Representation Bias특정 그룹의 과소/과대 대표얼굴 인식 데이터의 인종 불균형
Measurement Bias측정 방법 자체의 편향특정 지역의 범죄 보고 편향
Selection Bias데이터 수집 과정의 편향온라인 설문의 디지털 격차

실제 사례:

  • Amazon 채용 AI: 이력서 평가 모델이 여성 지원자를 체계적으로 불리하게 평가 (과거 채용 데이터의 성별 편향 학습)
  • 얼굴 인식: 어두운 피부색에서 오인식률이 높음 (학습 데이터의 인종 불균형)
  • COMPAS 재범 예측: 흑인 피고인에 대한 false positive 비율이 더 높음
지표정의수식
Demographic Parity그룹 간 긍정 예측 비율 동일P(Y^=1A=0)=P(Y^=1A=1)P(\hat{Y}=1\|A=0) = P(\hat{Y}=1\|A=1)
Equalized Odds그룹 간 TPR, FPR 동일P(Y^=1Y=y,A=0)=P(Y^=1Y=y,A=1)P(\hat{Y}=1\|Y=y, A=0) = P(\hat{Y}=1\|Y=y, A=1)
Predictive Parity그룹 간 PPV 동일P(Y=1Y^=1,A=0)=P(Y=1Y^=1,A=1)P(Y=1\|\hat{Y}=1, A=0) = P(Y=1\|\hat{Y}=1, A=1)

불가능성 정리 (Impossibility Theorem): Chouldechova (2017)는 기저율(base rate)이 다른 그룹에 대해 Demographic Parity, Equalized Odds, Predictive Parity를 동시에 만족시키는 것이 불가능함을 증명하였다.

→ 어떤 공정성 기준을 우선할지는 도메인과 맥락에 따른 가치 판단의 문제이다.

게임 이론의 Shapley value에 기반한 설명 도구이다.

  • 모델 불가지론적(model-agnostic): 어떤 모델에도 적용 가능
  • 지역적 + 전역적 설명: 개별 예측과 전체 모델 모두 설명
  • 시각화: Summary plot, Dependence plot, Force plot

LIME (Local Interpretable Model-agnostic Explanations)

섹션 제목: “LIME (Local Interpretable Model-agnostic Explanations)”

개별 예측 주변에서 해석 가능한 모델(선형 모델)을 학습하여 설명한다.

  • 빠르지만 불안정할 수 있음 (동일 입력에 다른 설명이 나올 수 있음)
기법적용 대상방법
Grad-CAMCNN기울기 기반 클래스 활성화 맵
Attention VisualizationTransformer어텐션 가중치 시각화
Integrated Gradients신경망입력 기여도의 적분
Decision Tree 추출복잡한 모델모사 모델로 규칙 추출

Intrinsic vs Post-hoc:

  • Intrinsic: 본래 해석 가능한 모델 (선형 회귀, 결정 트리, 규칙 기반)
  • Post-hoc: 사후에 설명을 생성하는 도구 (SHAP, LIME, Grad-CAM)

4. 책임 있는 AI 실천 (Responsible AI Practices)

섹션 제목: “4. 책임 있는 AI 실천 (Responsible AI Practices)”
실천 항목설명
모델 카드 (Model Cards)모델의 용도, 한계, 평가 결과 문서화
데이터시트 (Datasheets)데이터 수집 과정, 편향 위험 문서화
영향 평가 (Impact Assessment)배포 전 사회적 영향 분석
Human-in-the-Loop고위험 결정에 인간 검토 포함
정기적 감사 (Audit)모델의 공정성을 지속적으로 평가

공정성-정확도 Trade-off 다이어그램

시점기법설명
학습 전데이터 균형화, 리샘플링편향된 데이터 보정
학습 중공정성 제약 추가, 적대적 학습모델이 보호 속성에 무관하도록
학습 후임계값 조정, 보정(calibration)그룹별 결정 경계 조정
  • EU AI Act: 고위험 AI 시스템에 대한 투명성, 공정성, 인간 감독 요구
  • 미국: 부문별 규제 (금융, 의료, 채용 등)
  • 한국: AI 윤리 기준, 개인정보보호법

윤리적 AI 고려는 모든 ML 프로젝트에 적용되어야 하지만, 특히:

상황윤리적 고려 수준
채용, 대출, 보험 결정매우 높음 (법적 규제)
의료 진단매우 높음 (생명 관련)
형사 사법매우 높음 (자유 관련)
추천 시스템높음 (필터 버블, 편향 강화)
광고 타겟팅중간 (차별 가능성)
연구/내부 도구기본 (데이터 편향 인식)

아마존의 채용 AI 시스템은 AI 윤리 분야에서 가장 많이 인용되는 사례 중 하나이다. 이 시스템의 전체 타임라인을 살펴보면, 편향이 어떻게 발생하고, 왜 수정이 어려운지를 명확히 이해할 수 있다.

전체 타임라인:

연도단계내용
2014개발 시작아마존의 ML 팀이 이력서 자동 평가 시스템 개발 착수. 과거 10년간의 채용 데이터를 학습 데이터로 사용
2015편향 최초 발견시스템이 “여성(women’s)“이라는 단어가 포함된 이력서에 감점을 부여한다는 것을 발견. 예: “여성 체스 클럽 회장” → 감점
2015~20161차 수정 시도성별 관련 명시적 키워드를 제거. 그러나 모델은 프록시 변수(Proxy Variable)를 통해 성별을 간접적으로 학습 (예: 여자 대학교 이름, 특정 동아리)
2016~20172차 수정 시도프록시 변수 제거 시도. 그러나 새로운 프록시가 계속 발견됨. 학습 데이터 자체가 남성 중심 채용 역사를 반영하고 있었기 때문
2017근본적 한계 인식팀은 학습 데이터의 Historical Bias를 기술적으로 완전히 제거하는 것이 불가능하다는 결론에 도달
2018프로젝트 폐기Reuters 보도 후 프로젝트 공식 폐기. 약 4년간의 개발 비용과 기회비용 손실

핵심 교훈:

  • Historical Bias는 특성 제거로 해결되지 않는다: 보호 속성(성별)을 직접 제거해도, 데이터 내 수천 개의 간접적 상관관계(프록시)를 통해 편향이 재현된다
  • 학습 데이터가 차별적이면, 모델도 차별적이다: 과거 10년간 기술 업계가 남성 중심이었다는 역사적 사실이 데이터에 그대로 반영되어 있었다
  • 기술적 수정만으로는 부족하다: 편향 문제는 데이터 수집 방법, 라벨 정의, 평가 기준 등 ML 파이프라인 전체에 대한 재설계가 필요하다
  • 조기 발견이 중요하다: 2015년에 편향을 발견했지만, 3년간 기술적 수정을 시도하다가 결국 폐기했다. 초기 단계에서 학습 데이터의 편향을 평가하는 프로세스가 있었다면 비용을 크게 줄일 수 있었다

  1. “모델이 보호 속성을 사용하지 않으면 공정하다”: 보호 속성(성별, 인종)을 제거해도 proxy variable(우편번호, 이름)을 통해 간접적으로 학습한다.

  2. “공정성 지표 하나만 만족하면 된다”: 불가능성 정리에 의해 모든 기준을 동시에 만족할 수 없다. 어떤 기준이 맥락에 적합한지 신중히 선택해야 한다.

  3. “SHAP/LIME이 모델을 완전히 설명한다”: 이들은 근사적 설명이며, 모델의 실제 의사결정 과정을 완벽히 반영하지 않을 수 있다.

  4. “기술적으로 해결할 수 있다”: 공정성은 기술적 문제인 동시에 사회적, 철학적 문제이다. 이해 관계자, 영향 받는 집단과의 대화가 필수적이다.

  5. “편향은 데이터만의 문제”: 편향은 문제 정의, 라벨링, 특성 선택, 모델 설계, 평가 지표 선택 등 ML 파이프라인의 모든 단계에서 발생한다.