공정성 지표 (Fairness Metrics)

핵심 요약: AI 모델이 특정 집단(성별, 인종 등)에 불공정하지 않은지를 측정하는 것이 공정성 지표다. “동등한 예측률”, “동등한 기회”, “보정된 확률” 등 여러 기준이 있지만, 수학적으로 이 모든 기준을 동시에 만족하는 것은 불가능하다(불가능성 정리). 케이크를 “모든 사람에게 같은 크기”와 “배고픔에 비례하여” 동시에 자를 수 없는 것과 같다.

개요

ML 모델은 사회적 편향(Bias, 특정 집단에 대한 체계적 불이익)을 학습하고 증폭할 수 있다. 채용, 대출, 형사 사법, 의료 등 고위험 의사결정에 ML이 사용되면서, 모델의 공정성(Fairness)을 측정하고 보장하는 것이 기술적 과제이자 윤리적 요구가 되었다.

이 문서에서는 주요 공정성 지표의 수학적 정의, 불가능성 정리(Impossibility Theorem)의 의미, 그리고 공정성-정확도 트레이드오프를 다룬다.

탄생 배경

공정성 지표가 ML의 핵심 주제로 부상한 결정적 계기는 2016년 ProPublica의 COMPAS 조사였다. COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)는 미국 법원에서 재범 위험도를 예측하는 상용 알고리즘이었다. ProPublica의 탐사 보도팀은 플로리다주 브로워드 카운티의 7,000여 건의 COMPAS 점수를 분석하여, 충격적인 결과를 발표했다.

분석 결과, COMPAS는 흑인 피고인의 재범 위험을 체계적으로 과대 추정하고 백인 피고인의 재범 위험을 과소 추정하는 경향이 있었다. 구체적으로, 재범을 하지 않은 흑인 피고인이 “고위험”으로 잘못 분류되는 비율(False Positive Rate)이 백인 피고인의 약 2배였다. 반면, COMPAS를 개발한 Northpointe사(현 Equivant)는 자사 알고리즘이 보정(Calibration) 기준으로는 공정하다고 반박했다 — 같은 점수를 받은 피고인의 실제 재범률은 인종에 관계없이 유사했다는 것이다.

이 논쟁은 후속 연구로 이어져, Chouldechova(2017)와 Kleinberg et al.(2016)이 수학적으로 증명한 불가능성 정리로 귀결되었다: 그룹 간 기본 비율(base rate)이 다를 때, 보정, 균등화된 승산, 인구통계적 동등성을 동시에 만족하는 것은 수학적으로 불가능하다. ProPublica와 Northpointe는 각각 다른 공정성 기준을 적용했고, 두 기준이 동시에 충족될 수 없었기에 둘 다 “맞으면서 틀린” 것이었다.

불가능성 정리를 직관적으로 이해하려면 채용 상황을 생각해 보자. 남성 지원자 중 70%, 여성 지원자 중 30%가 객관적 자격 기준을 충족하는 인재풀이 있다고 하자. 이때 “동등한 채용률”(두 그룹에서 같은 비율을 채용)과 “동등한 기회”(자격 있는 사람이 성별에 관계없이 같은 확률로 채용)를 동시에 달성하는 것은 수학적으로 불가능하다. 동등한 채용률을 맞추면 자격 있는 남성의 기회가 줄거나 자격 없는 여성의 채용이 늘어야 하고, 동등한 기회를 맞추면 채용률에 차이가 생길 수밖에 없다.

표기법:

$A$ : 보호 속성 (Protected Attribute, 법적으로 차별이 금지된 특성. 예: 성별, 인종, 나이)
$Y$ : 실제 레이블
$\hat{Y}$ : 예측
$S$ : 모델 점수

핵심 개념

1. 인구통계적 동등성 (Demographic Parity)

$P(\hat{Y} = 1 \mid A = a) = P(\hat{Y} = 1 \mid A = b) \quad \text{for all groups } a, b$

별칭: Statistical Parity, Independence
양성 예측 비율(모델이 “양성”이라고 예측하는 비율)이 모든 그룹에서 동일해야 한다
실제 레이블 분포( $Y$ )를 무시한다

숫자로 이해하기

대출 심사 모델이 두 그룹(A, B)에 대해 다음과 같이 예측했다고 하자:

그룹 A (500명) 그룹 B (500명)
승인 예측 300명 (60%) 200명 (40%)
거절 예측 200명 300명

Disparate Impact Ratio = 40% / 60% = 0.67

미국 4/5 규칙: 0.67 < 0.8 → 차별적 영향(Disparate Impact) 의심

하지만 그룹 A의 실제 자격률이 55%, 그룹 B가 35%라면, 승인률 차이가 실제 자격 차이를 반영한 것일 수도 있다. 이것이 인구통계적 동등성의 한계다 — 실제 자격률(Base Rate)을 무시한다.

	그룹 A (500명)	그룹 B (500명)
승인 예측	300명 (60%)	200명 (40%)
거절 예측	200명	300명

Disparate Impact Ratio (4/5 규칙):

$\text{DI Ratio} = \frac{P(\hat{Y} = 1 \mid A = \text{소수 그룹})}{P(\hat{Y} = 1 \mid A = \text{다수 그룹})} \geq 0.8$

미국 고용 관련 법적 기준. 비율이 0.8 미만이면 차별적 영향(disparate impact)으로 간주될 수 있다.

한계: 그룹 간 실제 자격률(base rate)이 다르면, 동등한 예측률을 강제하면 한쪽 그룹에서 더 높은 오류율이 발생한다.

2. 균등화된 승산 (Equalized Odds)

$P(\hat{Y} = 1 \mid Y = y, A = a) = P(\hat{Y} = 1 \mid Y = y, A = b) \quad \text{for } y \in \{0, 1\}$

모든 그룹에서 TPR과 FPR이 동일해야 한다
실제 레이블을 조건으로 하므로, 그룹 간 base rate 차이를 허용
Demographic Parity보다 합리적인 경우가 많다

완화 버전 — Equal Opportunity (기회 균등):

$P(\hat{Y} = 1 \mid Y = 1, A = a) = P(\hat{Y} = 1 \mid Y = 1, A = b)$

$Y = 1$ 인 경우(양성 클래스)에 대해서만 동일한 TPR을 요구한다. 예: “실제로 자격이 있는 사람이 그룹에 관계없이 동일한 확률로 선발되어야 한다.”

3. 그룹 간 보정 (Calibration Across Groups)

$P(Y = 1 \mid S = s, A = a) = P(Y = 1 \mid S = s, A = b) \quad \text{for all scores } s$

별칭: Test Fairness, Predictive Parity (PPV 관점)
같은 예측 점수가 모든 그룹에서 같은 의미를 가져야 한다
예: “이 사람의 재범 확률이 60%“라는 예측이, 어떤 그룹 소속이든 실제로 60%에 가까워야 한다
보정(Calibration)의 그룹별 확장

4. 불가능성 정리 (Impossibility Theorem)

Chouldechova (2017), Kleinberg et al. (2016):

기본 비율(base rate)이 그룹 간에 다를 때, 인구통계적 동등성, 균등화된 승산, 그리고 보정을 동시에 만족하는 것은 불가능하다 (자명한 경우를 제외하고).

4. 불가능성 정리 (Impossibility Theorem) 다이어그램 함의:

공정성 기준은 상충한다 — 하나를 만족하면 다른 하나를 포기해야 한다. 비유하자면, 하나의 케이크를 “모든 사람에게 같은 크기”와 “각자의 배고픔에 비례하여” 동시에 나누는 것은 배고픔이 다른 한 불가능하다.
어떤 공정성 기준을 우선할지는 도메인 전문가, 이해관계자, 법률에 기반한 규범적(normative) 결정이다
기술자가 혼자 결정할 문제가 아니다

상세 내용

추가 공정성 지표

지표	정의	초점
Predictive Parity	$P(Y=1 \mid \hat{Y}=1, A=a) = P(Y=1 \mid \hat{Y}=1, A=b)$	동일한 PPV
Treatment Equality	모든 그룹에서 $FN/FP$ 비율 동일	오류 유형의 균형
Individual Fairness (Dwork et al., 2012)	유사한 개인은 유사한 예측을 받아야 함	개인 수준
Counterfactual Fairness	보호 속성이 달랐을 가상 세계에서도 예측이 동일	인과적

그룹 공정성 vs 개인 공정성:

그룹 공정성: 그룹 수준의 통계적 동등성 요구
개인 공정성: “비슷한 사람에게 비슷한 결과” — “유사성” 정의가 어려움
두 개념은 상충할 수 있다

공정성-정확도 트레이드오프

공정성 제약을 부과하면 일반적으로 전체 정확도가 감소한다.

파레토 프론티어: 공정성-정확도 공간에서 최적 모델들의 집합. 어떤 모델도 공정성과 정확도를 동시에 개선할 수 없는 지점들.

공정성 달성 방법:

단계	방법	설명
전처리 (Pre-processing)	재가중(Reweighting), 재표본(Resampling)	훈련 데이터의 편향을 사전에 보정
학습 중 (In-processing)	제약 최적화(Constrained optimization)	공정성 제약을 학습 목표에 포함
후처리 (Post-processing)	그룹별 임계값 조정	예측 후 결과를 보정

전처리는 모델에 독립적이라 범용적이고, 후처리는 구현이 간단하지만 근본적 해결이 아닐 수 있으며, 학습 중 보정이 가장 원칙적이지만 구현이 복잡하다.

실전 고려사항

맥락에 따른 공정성 기준 선택:

맥락	우선 기준	근거
형사 사법 (재범 예측)	보정 (Calibration)	같은 점수가 같은 의미를 가져야 함
대출 심사	기회 균등 (Equal Opportunity)	자격 있는 사람이 그룹에 관계없이 승인
채용	인구통계적 동등성	법적 요구 (4/5 규칙)
의료 진단	균등화된 승산	질병 유무 모두에서 동등한 정확도

교차성 (Intersectionality):

단일 보호 속성만 보면 불충분할 수 있다
예: “여성”과 “소수 인종” 각각에서 공정해도, “소수 인종 여성”에서는 불공정할 수 있다
교차 그룹은 데이터가 적어 분석이 어려움

동적 공정성 (Dynamic Fairness):

모델 예측이 피드백 루프를 통해 미래 데이터에 영향
예: 범죄 예측 → 특정 지역 순찰 강화 → 해당 지역 범죄 기록 증가 → 편향 강화
정적 공정성 지표만으로는 이 문제를 포착할 수 없다

공정성 감사 예시 (가상 데이터)

대출 승인 모델, 그룹 A와 B:

지표	그룹 A	그룹 B	공정?
승인률	60%	40%	DI = 0.67 < 0.8 — DP 위반
TPR (자격자 승인)	80%	75%	차이 5%p — EO 약간 위반
FPR (비자격자 승인)	15%	10%	차이 5%p — Eq.Odds 위반
승인자 중 실제 자격률	85%	88%	유사 — Predictive Parity 근사 충족

이 예시에서:

Demographic Parity: 위반 (승인률 차이)
Equalized Odds: 위반 (TPR, FPR 모두 차이)
Predictive Parity: 근사 충족 (PPV 유사)

어떤 기준을 우선할지는 법적, 윤리적 판단에 달려 있다.

공정성 지표 비교

지표	수학적 조건	장점	한계
Demographic Parity	동등한 양성 예측률	직관적, 법적 기준 존재	base rate 차이 무시
Equalized Odds	동등한 TPR + FPR	실제 레이블 고려	달성 어려움, 두 조건 동시 충족
Equal Opportunity	동등한 TPR만	양성 클래스에 집중	FPR 무시
Calibration	동등한 조건부 확률	확률의 의미 보존	결과 분포 불평등 허용
Individual Fairness	유사 개인 → 유사 결과	개인 수준 공정	”유사성” 정의 어려움
Counterfactual	인과적 반사실 동등	인과적 근거	인과 모델 필요, 검증 어려움

언제 사용하는가

고위험 의사결정 시스템을 배포할 때 → 반드시 공정성 감사(Fairness Audit) 수행
법적 규제가 있는 도메인 → 해당 법규가 요구하는 공정성 기준 확인 (EU AI Act, ECOA 등)
모델이 보호 속성과 상관된 특성을 사용할 때 → 간접 차별(indirect discrimination) 가능성 점검
배포 후 모니터링 → 공정성 지표를 지속적으로 추적 (동적 편향 감지)

실전 사례

아마존 채용 AI의 성별 차별 사건 전체 타임라인

2014년: 아마존은 이력서 심사를 자동화하기 위한 AI 채용 도구 개발을 시작했다. 목표는 수십만 건의 이력서 중에서 “최고의 5명”을 자동으로 골라내는 것이었다. 모델은 과거 10년간(2004-2014) 아마존에 제출된 이력서와 해당 지원자의 채용 결과를 학습 데이터로 사용했다.

2015년: 개발팀은 시스템이 여성 지원자에게 체계적으로 불이익을 주고 있음을 발견했다. 구체적으로:

“여성(women’s)“이라는 단어가 포함된 이력서(예: “여성 체스 클럽 회장”)에 감점을 적용
특정 여자대학 졸업이 기재된 이력서의 점수가 하락
소프트웨어 개발자, 기술직 등 남성 지배적 직군에서 편향이 특히 심함

근본 원인: 모델이 학습한 10년간의 채용 데이터가 기술 산업의 기존 성별 불균형을 반영하고 있었다. 과거에 주로 남성이 채용되었으므로, 모델은 “남성적 특성”을 성공적 지원자의 패턴으로 학습한 것이다. 보호 속성(성별)을 입력에서 명시적으로 제거했지만, “여성”이라는 단어, 특정 대학명, 과외활동 등이 대리변수(proxy variable)로 작동했다.

2017년: 아마존은 편향을 제거하기 위한 여러 시도를 했으나, 특정 편향을 수정하면 다른 형태의 편향이 나타나는 문제가 반복되었다. 결국 팀은 모델이 진정으로 중립적(gender-neutral)이 될 수 있다는 보장이 없다고 결론 내렸다.

2018년 10월: Reuters가 이 사건을 보도하면서 전 세계적 관심을 받았고, 아마존은 해당 프로젝트를 공식 폐기했다.

교훈:

역사적 편향이 학습 데이터에 내재되어 있을 때, 모델은 이를 학습하고 증폭한다
보호 속성을 제거하는 것만으로는 공정성을 보장할 수 없다 — 대리변수(proxy) 문제
공정성은 사후 수정이 아니라 시스템 설계 단계부터 고려해야 한다
고위험 의사결정(채용, 대출, 형사 사법)에 ML을 적용할 때는 반드시 공정성 감사(Fairness Audit)가 선행되어야 한다

흔한 오해와 함정

“보호 속성을 입력에서 제거하면 공정해진다” — 다른 특성이 보호 속성과 상관되어 있으면(proxy variables) 간접 차별이 발생한다. 예: 우편번호가 인종의 대리변수가 될 수 있다.
“하나의 공정성 기준을 만족하면 충분하다” — 불가능성 정리에 의해 기준들이 상충하므로, 여러 기준을 확인하고 어떤 기준을 우선할지 명시적으로 결정해야 한다.
“공정성은 순수 기술적 문제다” — 어떤 공정성 기준을 선택할지는 가치 판단이다. 기술자, 도메인 전문가, 이해관계자가 함께 결정해야 한다.
“공정성 제약은 항상 정확도를 크게 떨어뜨린다” — 실제로는 약간의 정확도 감소만으로 공정성을 크게 개선할 수 있는 경우가 많다. 파레토 프론티어를 탐색하라.
“정적 분석으로 충분하다” — 피드백 루프가 있는 시스템에서는 시간에 따라 편향이 변하므로, 배포 후 지속적 모니터링이 필수적이다.
“그룹 공정성이면 개인도 공정하다” — 그룹 수준의 통계적 동등성이 개인 수준의 공정성을 보장하지 않는다. 두 개념은 독립적이다.

다른 주제와의 연결

혼동 행렬과 분류 지표: TPR, FPR, PPV 등 공정성 지표의 구성 요소
보정 (Calibration): 그룹 간 보정은 핵심 공정성 기준; 보정 방법의 그룹별 적용
정밀도-재현율 트레이드오프: 그룹별 임계값 조정과 공정성
ROC와 AUC: 그룹별 ROC 곡선 비교로 Equalized Odds 시각화
통계적 검정: 그룹 간 성능 차이의 통계적 유의성 검증