윤리적 AI (Ethical AI)
핵심 요약: AI가 편향되지 않고 공정하게 작동하는지 확인해야 한다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 그대로 학습하고 증폭시킨다.
초보자를 위한 핵심 용어
섹션 제목: “초보자를 위한 핵심 용어”- 편향(Bias): 모델이 특정 그룹을 불공정하게 대우하는 경향. 학습 데이터에 담긴 역사적 차별이 주된 원인이다.
- 공정성(Fairness): 모델의 예측이 성별, 인종 등 보호 속성에 관계없이 동등한 품질을 제공하는 것.
- 설명 가능성(Explainability): 모델이 왜 그런 예측을 했는지 이해할 수 있는 능력. SHAP, LIME 등의 도구가 대표적.
- 프록시 변수(Proxy Variable): 보호 속성(성별)을 직접 사용하지 않아도, 간접적으로 성별을 추론할 수 있는 변수. 예: 여자 대학교 이름, 특정 동아리.
AI 시스템은 학습 데이터, 모델 설계, 배포 방식에 내재된 편향(bias)을 반영하고 증폭시킬 수 있다. 윤리적 AI는 공정성(fairness), 설명 가능성(explainability), 책임성(accountability)을 고려하여, AI 시스템이 사회적으로 유익하고 해를 최소화하도록 하는 것을 목표로 한다. 이는 기술적 문제일 뿐 아니라 사회적, 법적, 철학적 문제이기도 하다.
비유: 편향(Bias)은 “깨진 거울”과 같다. 모델은 데이터에 있는 역사적 차별을 반사할 뿐이다. 거울이 왜곡되어 있으면 비춰지는 상(像)도 왜곡된다. 데이터에 과거의 차별이 담겨 있으면, 모델은 그 차별을 충실히 학습하고, 더 나아가 증폭시킨다. 거울을 탓하기 전에, 거울에 비추는 것(데이터)을 먼저 점검해야 한다.
탄생 배경
섹션 제목: “탄생 배경”AI 윤리가 학문적 논의에서 법률과 규제의 영역으로 이동한 것은, 2016년부터 2020년 사이에 연이어 터진 대형 사건들 때문이었다.
주요 사건 타임라인:
| 연도 | 사건 | 영향 |
|---|---|---|
| 2016 | COMPAS 재범 예측 편향 폭로 (ProPublica) | 흑인 피고인의 False Positive 비율이 백인의 2배. AI 공정성 논의의 시발점 |
| 2016 | Microsoft Tay 챗봇 사건 | 출시 24시간 만에 인종차별 발언 학습. AI 안전 문제 부각 |
| 2018 | Amazon 채용 AI 편향 발견 및 폐기 | 여성 지원자를 체계적으로 불이익. 기업 AI 윤리 감사 필요성 대두 |
| 2019 | Apple Card 성차별 논란 | 동일 조건에서 여성의 신용 한도가 낮게 설정. 금융 AI 규제 강화 |
| 2020 | Clearview AI 논란 | 수십억 장의 얼굴 이미지를 무단 수집하여 안면인식 DB 구축. 개인정보와 감시 문제 |
| 2020 | 영국 A-Level 알고리즘 사태 | COVID-19로 시험 취소 후 알고리즘으로 성적 산출, 저소득층 학생 불이익. 결국 철회 |
학문에서 법률로의 전환:
이러한 사건들이 축적되면서, AI 윤리는 더 이상 “있으면 좋은 것(nice-to-have)“이 아니라 “반드시 있어야 하는 것(must-have)“으로 인식이 전환되었다.
- 2018: EU의 GDPR 시행으로 “자동화된 의사결정에 대한 설명 요구권”이 법적 권리로 확립
- 2019: OECD AI 원칙 채택, 42개국이 AI 윤리 가이드라인에 합의
- 2021: EU AI Act 초안 발표, 고위험 AI 시스템에 대한 법적 규제 프레임워크 제시
- 2024: EU AI Act 최종 시행, 세계 최초의 포괄적 AI 규제법
AI 윤리는 이제 기술자의 선의에 의존하는 것이 아니라, 법률과 규제에 의해 강제되는 엔지니어링 요구사항이 되었다.
핵심 개념
섹션 제목: “핵심 개념”1. 학습 데이터의 편향 (Bias in Training Data)
섹션 제목: “1. 학습 데이터의 편향 (Bias in Training Data)”| 편향 유형 | 설명 | 예시 |
|---|---|---|
| Historical Bias | 과거의 차별이 데이터에 반영 | 과거 채용 데이터에 성별 편향 |
| Representation Bias | 특정 그룹의 과소/과대 대표 | 얼굴 인식 데이터의 인종 불균형 |
| Measurement Bias | 측정 방법 자체의 편향 | 특정 지역의 범죄 보고 편향 |
| Selection Bias | 데이터 수집 과정의 편향 | 온라인 설문의 디지털 격차 |
실제 사례:
- Amazon 채용 AI: 이력서 평가 모델이 여성 지원자를 체계적으로 불리하게 평가 (과거 채용 데이터의 성별 편향 학습)
- 얼굴 인식: 어두운 피부색에서 오인식률이 높음 (학습 데이터의 인종 불균형)
- COMPAS 재범 예측: 흑인 피고인에 대한 false positive 비율이 더 높음
2. 공정성 지표 (Fairness Metrics)
섹션 제목: “2. 공정성 지표 (Fairness Metrics)”| 지표 | 정의 | 수식 |
|---|---|---|
| Demographic Parity | 그룹 간 긍정 예측 비율 동일 | |
| Equalized Odds | 그룹 간 TPR, FPR 동일 | |
| Predictive Parity | 그룹 간 PPV 동일 |
불가능성 정리 (Impossibility Theorem): Chouldechova (2017)는 기저율(base rate)이 다른 그룹에 대해 Demographic Parity, Equalized Odds, Predictive Parity를 동시에 만족시키는 것이 불가능함을 증명하였다.
→ 어떤 공정성 기준을 우선할지는 도메인과 맥락에 따른 가치 판단의 문제이다.
3. 설명 가능성 (Explainability)
섹션 제목: “3. 설명 가능성 (Explainability)”SHAP (SHapley Additive exPlanations)
섹션 제목: “SHAP (SHapley Additive exPlanations)”게임 이론의 Shapley value에 기반한 설명 도구이다.
- 모델 불가지론적(model-agnostic): 어떤 모델에도 적용 가능
- 지역적 + 전역적 설명: 개별 예측과 전체 모델 모두 설명
- 시각화: Summary plot, Dependence plot, Force plot
LIME (Local Interpretable Model-agnostic Explanations)
섹션 제목: “LIME (Local Interpretable Model-agnostic Explanations)”개별 예측 주변에서 해석 가능한 모델(선형 모델)을 학습하여 설명한다.
- 빠르지만 불안정할 수 있음 (동일 입력에 다른 설명이 나올 수 있음)
기타 설명 기법
섹션 제목: “기타 설명 기법”| 기법 | 적용 대상 | 방법 |
|---|---|---|
| Grad-CAM | CNN | 기울기 기반 클래스 활성화 맵 |
| Attention Visualization | Transformer | 어텐션 가중치 시각화 |
| Integrated Gradients | 신경망 | 입력 기여도의 적분 |
| Decision Tree 추출 | 복잡한 모델 | 모사 모델로 규칙 추출 |
Intrinsic vs Post-hoc:
- Intrinsic: 본래 해석 가능한 모델 (선형 회귀, 결정 트리, 규칙 기반)
- Post-hoc: 사후에 설명을 생성하는 도구 (SHAP, LIME, Grad-CAM)
4. 책임 있는 AI 실천 (Responsible AI Practices)
섹션 제목: “4. 책임 있는 AI 실천 (Responsible AI Practices)”| 실천 항목 | 설명 |
|---|---|
| 모델 카드 (Model Cards) | 모델의 용도, 한계, 평가 결과 문서화 |
| 데이터시트 (Datasheets) | 데이터 수집 과정, 편향 위험 문서화 |
| 영향 평가 (Impact Assessment) | 배포 전 사회적 영향 분석 |
| Human-in-the-Loop | 고위험 결정에 인간 검토 포함 |
| 정기적 감사 (Audit) | 모델의 공정성을 지속적으로 평가 |
상세 내용
섹션 제목: “상세 내용”공정성-정확도 Trade-off
섹션 제목: “공정성-정확도 Trade-off”편향 완화 기법
섹션 제목: “편향 완화 기법”| 시점 | 기법 | 설명 |
|---|---|---|
| 학습 전 | 데이터 균형화, 리샘플링 | 편향된 데이터 보정 |
| 학습 중 | 공정성 제약 추가, 적대적 학습 | 모델이 보호 속성에 무관하도록 |
| 학습 후 | 임계값 조정, 보정(calibration) | 그룹별 결정 경계 조정 |
AI 규제 동향
섹션 제목: “AI 규제 동향”- EU AI Act: 고위험 AI 시스템에 대한 투명성, 공정성, 인간 감독 요구
- 미국: 부문별 규제 (금융, 의료, 채용 등)
- 한국: AI 윤리 기준, 개인정보보호법
언제 사용하는가
섹션 제목: “언제 사용하는가”윤리적 AI 고려는 모든 ML 프로젝트에 적용되어야 하지만, 특히:
| 상황 | 윤리적 고려 수준 |
|---|---|
| 채용, 대출, 보험 결정 | 매우 높음 (법적 규제) |
| 의료 진단 | 매우 높음 (생명 관련) |
| 형사 사법 | 매우 높음 (자유 관련) |
| 추천 시스템 | 높음 (필터 버블, 편향 강화) |
| 광고 타겟팅 | 중간 (차별 가능성) |
| 연구/내부 도구 | 기본 (데이터 편향 인식) |
실전 사례
섹션 제목: “실전 사례”아마존 채용 AI의 흥망: 2014~2018
섹션 제목: “아마존 채용 AI의 흥망: 2014~2018”아마존의 채용 AI 시스템은 AI 윤리 분야에서 가장 많이 인용되는 사례 중 하나이다. 이 시스템의 전체 타임라인을 살펴보면, 편향이 어떻게 발생하고, 왜 수정이 어려운지를 명확히 이해할 수 있다.
전체 타임라인:
| 연도 | 단계 | 내용 |
|---|---|---|
| 2014 | 개발 시작 | 아마존의 ML 팀이 이력서 자동 평가 시스템 개발 착수. 과거 10년간의 채용 데이터를 학습 데이터로 사용 |
| 2015 | 편향 최초 발견 | 시스템이 “여성(women’s)“이라는 단어가 포함된 이력서에 감점을 부여한다는 것을 발견. 예: “여성 체스 클럽 회장” → 감점 |
| 2015~2016 | 1차 수정 시도 | 성별 관련 명시적 키워드를 제거. 그러나 모델은 프록시 변수(Proxy Variable)를 통해 성별을 간접적으로 학습 (예: 여자 대학교 이름, 특정 동아리) |
| 2016~2017 | 2차 수정 시도 | 프록시 변수 제거 시도. 그러나 새로운 프록시가 계속 발견됨. 학습 데이터 자체가 남성 중심 채용 역사를 반영하고 있었기 때문 |
| 2017 | 근본적 한계 인식 | 팀은 학습 데이터의 Historical Bias를 기술적으로 완전히 제거하는 것이 불가능하다는 결론에 도달 |
| 2018 | 프로젝트 폐기 | Reuters 보도 후 프로젝트 공식 폐기. 약 4년간의 개발 비용과 기회비용 손실 |
핵심 교훈:
- Historical Bias는 특성 제거로 해결되지 않는다: 보호 속성(성별)을 직접 제거해도, 데이터 내 수천 개의 간접적 상관관계(프록시)를 통해 편향이 재현된다
- 학습 데이터가 차별적이면, 모델도 차별적이다: 과거 10년간 기술 업계가 남성 중심이었다는 역사적 사실이 데이터에 그대로 반영되어 있었다
- 기술적 수정만으로는 부족하다: 편향 문제는 데이터 수집 방법, 라벨 정의, 평가 기준 등 ML 파이프라인 전체에 대한 재설계가 필요하다
- 조기 발견이 중요하다: 2015년에 편향을 발견했지만, 3년간 기술적 수정을 시도하다가 결국 폐기했다. 초기 단계에서 학습 데이터의 편향을 평가하는 프로세스가 있었다면 비용을 크게 줄일 수 있었다
흔한 오해와 함정
섹션 제목: “흔한 오해와 함정”-
“모델이 보호 속성을 사용하지 않으면 공정하다”: 보호 속성(성별, 인종)을 제거해도 proxy variable(우편번호, 이름)을 통해 간접적으로 학습한다.
-
“공정성 지표 하나만 만족하면 된다”: 불가능성 정리에 의해 모든 기준을 동시에 만족할 수 없다. 어떤 기준이 맥락에 적합한지 신중히 선택해야 한다.
-
“SHAP/LIME이 모델을 완전히 설명한다”: 이들은 근사적 설명이며, 모델의 실제 의사결정 과정을 완벽히 반영하지 않을 수 있다.
-
“기술적으로 해결할 수 있다”: 공정성은 기술적 문제인 동시에 사회적, 철학적 문제이다. 이해 관계자, 영향 받는 집단과의 대화가 필수적이다.
-
“편향은 데이터만의 문제”: 편향은 문제 정의, 라벨링, 특성 선택, 모델 설계, 평가 지표 선택 등 ML 파이프라인의 모든 단계에서 발생한다.
다른 주제와의 연결
섹션 제목: “다른 주제와의 연결”- ML을 사용하지 말아야 할 때: 윤리적 제약으로 ML 부적합
- 불균형 데이터: 소수 그룹 성능
- 특성 선택: SHAP 기반 설명
- 흔한 실수: 잘못된 지표 선택
- ML 시스템 설계 패턴: 모니터링과 피드백 루프
- 생성 모델: 딥페이크의 윤리적 문제
- LLM: RLHF와 AI 안전