EQUITRIAGE: LLM 기반 응급실 분류의 성차별에 대한 공정성 감사

응급실 (Emergency Department) 분류는 환자의 치료 우선순위를 결정하는 급성도 점수 (acuity score) 를 할당하며, 임상적 증거는 인간 평가에서 지속된 성별 격차를 문서화하고 있습니다. 병원들이 LLM(대형 언어 모델) 을 분류 의사결정 지원으로 실험함에 따라, 이러한 모델이 알려진 편향을 재현하는지 완화하는지는 중요한 질문입니다.

우리는 4 가지 프롬프트 전략 (prompt strategies) 에서 18,714 개의 MIMIC-IV-ED 시나리오에 대해 374,275 번의 평가를 통해 5 개 모델 (Gemini-3-Flash, Nemotron-3-Super, DeepSeek-V3.1, Mistral-Small-3.2, GPT-4.1-Nano) 을 평가한 LLM 기반 ESI(응급실 상태 지수) 할당에 대한 공정성 감사인 EQUITRIAGE 를 제시합니다. 9,368 개의 원본 중 9,346 개는 성별이 반전된 카운터팩추얼 (counterfactual) 과 짝지어졌습니다.

5 개 모델 모두 사전 등록한 5% 임계치 (threshold) 보다 높은 플립률 (flip rates) 을 생성했습니다 (9.9% 에서 43.8%). 두 모델은 방향성 여성 불분류 (directional female undertriage) 를 보였습니다 (DeepSeek F/M 2.15:1, Gemini 1.34:1); 두 모델은 거의 평등에 가깝고, 한 모델은 높은 민감도 (sensitivity) 와 약한 남성 방향 비대칭성 (male-direction asymmetry) 을 보였습니다.

DeepSeek 의 방향성 편향은 MIMIC-IV 입원율과 관련된 낮은 결과 연결 교정 간격 (calibration gap, 0.013) 과 공존했습니다. 이는 Chouldechova 스타일의 그룹 내 교정 (within-group calibration) 과 쌍대 카운터팩추얼 불변성 (between-pair counterfactual invariance) 사이의 분리입니다.

인종/성별 정보 비공개 (demographic blinding) 는 Gemini 의 플립률을 0.5% 로 줄였습니다. 연령 보존 비공개 (age-preserving blind) 변형은 DeepSeek 에 잔류 F/M 1.25 를 남겼으며, 이는 연령이 잔류 채널임을 시사합니다.

시나리오 사고 (Chain-of-thought) 프롬프팅은 5 개 모델 모두의 정확도를 저하시켰습니다.

두 모델 아블레이션 (ablation) 은 동일한 방향성 표현형에 대해 반대되는 근본 기작을 보여줍니다: Gemini 에서는 신호가 이름 + 성별 반전 조합에서 나타나며, DeepSeek 에서는 성별 토큰만 그것을 운반합니다.

EQUITRIAGE 는 그룹 평등 (group parity), 카운터팩추얼 불변성, 성별 교정이 서로 다른 공정성 속성임을, 개입 효과는 모델 의존적임을, 그리고 임상 배포 전에 모델별 카운터팩추얼 감사 (auditing) 가 선행되어야 함을 보여줍니다.

Insights

EQUITRIAGE: LLM 기반 응급실 분류의 성차별에 대한 공정성 감사

요약

핵심 포인트

댓글

현재 소유주 2곳, Penske Automotive의 비상장 전환 추진

오늘 GitHub을 점령한 프로젝트는 무엇일까요? 🔥

FLUX 모델의 오랜 업데이트 소식

인텔($INTC) 어닝 서프라이즈, 2분기 실적·3분기 가이던스 모두 예상 상회

오늘 GitHub을 점령한 프로젝트는 무엇일까요? 🔥

FLUX 모델의 오랜 업데이트 소식

인텔($INTC) 어닝 서프라이즈, 2분기 실적·3분기 가이던스 모두 예상 상회