공정성 지표 (Fairness Metrics)¶
개요¶
ML 모델은 사회적 편향을 학습하고 증폭할 수 있다. 채용, 대출, 형사 사법, 의료 등 고위험 의사결정에 ML이 사용되면서, 모델의 공정성(Fairness)을 측정하고 보장하는 것이 기술적 과제이자 윤리적 요구가 되었다.
이 문서에서는 주요 공정성 지표의 수학적 정의, 불가능성 정리(Impossibility Theorem)의 의미, 그리고 공정성-정확도 트레이드오프를 다룬다.
표기법: - \(A\): 보호 속성 (Protected attribute, 예: 성별, 인종) - \(Y\): 실제 레이블 - \(\hat{Y}\): 예측 - \(S\): 모델 점수
핵심 개념¶
1. 인구통계적 동등성 (Demographic Parity)¶
- 별칭: Statistical Parity, Independence
- 양성 예측 비율이 모든 그룹에서 동일해야 한다
- 실제 레이블 분포(\(Y\))를 무시한다
Disparate Impact Ratio (4/5 규칙):
미국 고용 관련 법적 기준. 비율이 0.8 미만이면 차별적 영향(disparate impact)으로 간주될 수 있다.
한계: 그룹 간 실제 자격률(base rate)이 다르면, 동등한 예측률을 강제하면 한쪽 그룹에서 더 높은 오류율이 발생한다.
2. 균등화된 승산 (Equalized Odds)¶
- 모든 그룹에서 TPR과 FPR이 동일해야 한다
- 실제 레이블을 조건으로 하므로, 그룹 간 base rate 차이를 허용
- Demographic Parity보다 합리적인 경우가 많다
완화 버전 — Equal Opportunity (기회 균등):
\(Y = 1\)인 경우(양성 클래스)에 대해서만 동일한 TPR을 요구한다. 예: "실제로 자격이 있는 사람이 그룹에 관계없이 동일한 확률로 선발되어야 한다."
3. 그룹 간 보정 (Calibration Across Groups)¶
- 별칭: Test Fairness, Predictive Parity (PPV 관점)
- 같은 예측 점수가 모든 그룹에서 같은 의미를 가져야 한다
- 예: "이 사람의 재범 확률이 60%"라는 예측이, 어떤 그룹 소속이든 실제로 60%에 가까워야 한다
- 보정(Calibration)의 그룹별 확장
4. 불가능성 정리 (Impossibility Theorem)¶
Chouldechova (2017), Kleinberg et al. (2016):
기본 비율(base rate)이 그룹 간에 다를 때, 인구통계적 동등성, 균등화된 승산, 그리고 보정을 동시에 만족하는 것은 불가능하다 (자명한 경우를 제외하고).
graph TD
A["인구통계적 동등성<br/>(Demographic Parity)"] --- D["동시 만족<br/>불가능"]
B["균등화된 승산<br/>(Equalized Odds)"] --- D
C["그룹 간 보정<br/>(Calibration)"] --- D
D --- E["기본 비율이 다르면<br/>최대 2개만 만족 가능"]
E --- F["공정성은 기술적 문제가 아닌<br/>규범적/윤리적 선택"] 함의: - 공정성 기준은 상충한다 — 하나를 만족하면 다른 하나를 포기해야 한다 - 어떤 공정성 기준을 우선할지는 도메인 전문가, 이해관계자, 법률에 기반한 규범적(normative) 결정이다 - 기술자가 혼자 결정할 문제가 아니다
상세 내용¶
추가 공정성 지표¶
| 지표 | 정의 | 초점 |
|---|---|---|
| Predictive Parity | \(P(Y=1 \mid \hat{Y}=1, A=a) = P(Y=1 \mid \hat{Y}=1, A=b)\) | 동일한 PPV |
| Treatment Equality | 모든 그룹에서 \(FN/FP\) 비율 동일 | 오류 유형의 균형 |
| Individual Fairness (Dwork et al., 2012) | 유사한 개인은 유사한 예측을 받아야 함 | 개인 수준 |
| Counterfactual Fairness | 보호 속성이 달랐을 가상 세계에서도 예측이 동일 | 인과적 |
그룹 공정성 vs 개인 공정성: - 그룹 공정성: 그룹 수준의 통계적 동등성 요구 - 개인 공정성: "비슷한 사람에게 비슷한 결과" — "유사성" 정의가 어려움 - 두 개념은 상충할 수 있다
공정성-정확도 트레이드오프¶
공정성 제약을 부과하면 일반적으로 전체 정확도가 감소한다.
파레토 프론티어: 공정성-정확도 공간에서 최적 모델들의 집합. 어떤 모델도 공정성과 정확도를 동시에 개선할 수 없는 지점들.
공정성 달성 방법:
| 단계 | 방법 | 설명 |
|---|---|---|
| 전처리 (Pre-processing) | 재가중(Reweighting), 재표본(Resampling) | 훈련 데이터의 편향을 사전에 보정 |
| 학습 중 (In-processing) | 제약 최적화(Constrained optimization) | 공정성 제약을 학습 목표에 포함 |
| 후처리 (Post-processing) | 그룹별 임계값 조정 | 예측 후 결과를 보정 |
전처리는 모델에 독립적이라 범용적이고, 후처리는 구현이 간단하지만 근본적 해결이 아닐 수 있으며, 학습 중 보정이 가장 원칙적이지만 구현이 복잡하다.
실전 고려사항¶
맥락에 따른 공정성 기준 선택:
| 맥락 | 우선 기준 | 근거 |
|---|---|---|
| 형사 사법 (재범 예측) | 보정 (Calibration) | 같은 점수가 같은 의미를 가져야 함 |
| 대출 심사 | 기회 균등 (Equal Opportunity) | 자격 있는 사람이 그룹에 관계없이 승인 |
| 채용 | 인구통계적 동등성 | 법적 요구 (4/5 규칙) |
| 의료 진단 | 균등화된 승산 | 질병 유무 모두에서 동등한 정확도 |
교차성 (Intersectionality): - 단일 보호 속성만 보면 불충분할 수 있다 - 예: "여성"과 "소수 인종" 각각에서 공정해도, "소수 인종 여성"에서는 불공정할 수 있다 - 교차 그룹은 데이터가 적어 분석이 어려움
동적 공정성 (Dynamic Fairness): - 모델 예측이 피드백 루프를 통해 미래 데이터에 영향 - 예: 범죄 예측 → 특정 지역 순찰 강화 → 해당 지역 범죄 기록 증가 → 편향 강화 - 정적 공정성 지표만으로는 이 문제를 포착할 수 없다
공정성 감사 예시 (가상 데이터)¶
대출 승인 모델, 그룹 A와 B:
| 지표 | 그룹 A | 그룹 B | 공정? |
|---|---|---|---|
| 승인률 | 60% | 40% | DI = 0.67 < 0.8 — DP 위반 |
| TPR (자격자 승인) | 80% | 75% | 차이 5%p — EO 약간 위반 |
| FPR (비자격자 승인) | 15% | 10% | 차이 5%p — Eq.Odds 위반 |
| 승인자 중 실제 자격률 | 85% | 88% | 유사 — Predictive Parity 근사 충족 |
이 예시에서: - Demographic Parity: 위반 (승인률 차이) - Equalized Odds: 위반 (TPR, FPR 모두 차이) - Predictive Parity: 근사 충족 (PPV 유사)
어떤 기준을 우선할지는 법적, 윤리적 판단에 달려 있다.
공정성 지표 비교¶
| 지표 | 수학적 조건 | 장점 | 한계 |
|---|---|---|---|
| Demographic Parity | 동등한 양성 예측률 | 직관적, 법적 기준 존재 | base rate 차이 무시 |
| Equalized Odds | 동등한 TPR + FPR | 실제 레이블 고려 | 달성 어려움, 두 조건 동시 충족 |
| Equal Opportunity | 동등한 TPR만 | 양성 클래스에 집중 | FPR 무시 |
| Calibration | 동등한 조건부 확률 | 확률의 의미 보존 | 결과 분포 불평등 허용 |
| Individual Fairness | 유사 개인 → 유사 결과 | 개인 수준 공정 | "유사성" 정의 어려움 |
| Counterfactual | 인과적 반사실 동등 | 인과적 근거 | 인과 모델 필요, 검증 어려움 |
언제 사용하는가¶
- 고위험 의사결정 시스템을 배포할 때 → 반드시 공정성 감사(Fairness Audit) 수행
- 법적 규제가 있는 도메인 → 해당 법규가 요구하는 공정성 기준 확인 (EU AI Act, ECOA 등)
- 모델이 보호 속성과 상관된 특성을 사용할 때 → 간접 차별(indirect discrimination) 가능성 점검
- 배포 후 모니터링 → 공정성 지표를 지속적으로 추적 (동적 편향 감지)
흔한 오해와 함정¶
-
"보호 속성을 입력에서 제거하면 공정해진다" — 다른 특성이 보호 속성과 상관되어 있으면(proxy variables) 간접 차별이 발생한다. 예: 우편번호가 인종의 대리변수가 될 수 있다.
-
"하나의 공정성 기준을 만족하면 충분하다" — 불가능성 정리에 의해 기준들이 상충하므로, 여러 기준을 확인하고 어떤 기준을 우선할지 명시적으로 결정해야 한다.
-
"공정성은 순수 기술적 문제다" — 어떤 공정성 기준을 선택할지는 가치 판단이다. 기술자, 도메인 전문가, 이해관계자가 함께 결정해야 한다.
-
"공정성 제약은 항상 정확도를 크게 떨어뜨린다" — 실제로는 약간의 정확도 감소만으로 공정성을 크게 개선할 수 있는 경우가 많다. 파레토 프론티어를 탐색하라.
-
"정적 분석으로 충분하다" — 피드백 루프가 있는 시스템에서는 시간에 따라 편향이 변하므로, 배포 후 지속적 모니터링이 필수적이다.
-
"그룹 공정성이면 개인도 공정하다" — 그룹 수준의 통계적 동등성이 개인 수준의 공정성을 보장하지 않는다. 두 개념은 독립적이다.
다른 주제와의 연결¶
- 혼동 행렬과 분류 지표: TPR, FPR, PPV 등 공정성 지표의 구성 요소
- 보정 (Calibration): 그룹 간 보정은 핵심 공정성 기준; 보정 방법의 그룹별 적용
- 정밀도-재현율 트레이드오프: 그룹별 임계값 조정과 공정성
- ROC와 AUC: 그룹별 ROC 곡선 비교로 Equalized Odds 시각화
- 통계적 검정: 그룹 간 성능 차이의 통계적 유의성 검증