Reward Gating을 통한 CLIP의 선택적 테스트 단계 디바이아싱 (Selective Test-Time Debiasing)
요약
시각-언어 모델(VLM)의 사회적 고정관념 문제를 해결하기 위해 입력의 편향 민감도에 따라 디바이아싱을 선택적으로 적용하는 RG-TTA 프레임워크를 제안합니다. 강화학습 기반의 테스트 단계 적응을 통해 공정성과 유용성 사이의 트레이드오프를 극복하고 제로샷 성능을 향상시킵니다.
핵심 포인트
- 기존의 일률적인 디바이아싱 방식이 가진 공정성-유용성 트레이드오프 문제 지적
- 강화학습 기반의 Reward-Gated Test-Time Adaptation(RG-TTA) 프레임워크 제안
- 입력의 편향 민감도에 따라 공정성 정규화 적용 여부를 적응적으로 결정
- FairFace, UTKFace 벤치마크를 통해 편향 감소 및 유용성 향상 입증
시각-언어 모델 (Vision language models, VLMs)은 강력한 제로샷 (zero-shot) 성능을 보여주지만, 인물 중심의 쿼리 (queries)에서 사회적 고정관념을 지속시켜 왜곡된 인구 통계적 분포를 생성하는 경우가 많습니다. 현재의 디바이아싱 (debiasing) 방법들은 쿼리의 편향 민감도 (bias sensitivity)와 관계없이 모든 입력 쿼리에 대해 균일한 편향 교정을 적용하며, 이는 근본적인 공정성-유용성 트레이드오프 (fairness--utility trade-off)를 발생시킵니다. 강력한 디바이아싱은 편향에 민감하지 않은 쿼리에서 의미 있는 정보를 왜곡하는 반면, 약한 디바이아싱은 편향에 민감한 쿼리에서 고정관념을 완화하는 데 실패합니다. 이러한 일률적인 접근 방식은 편향에 민감하지 않은 쿼리에서의 높은 유용성과 편향에 민감한 쿼리에서의 공정성을 동시에 달성하는 것을 방해합니다. 본 논문에서는 입력 민감도에 따라 디바이아싱을 선택적으로 적용하는 강화학습 (reinforcement learning) 기반의 테스트 단계 적응 (test-time adaptation) 프레임워크인 Reward-Gated Test-Time Adaptation (RG-TTA)를 소개합니다. RG-TTA는 테스트 단계 정책 적응 (policy adaptation) 동안 각 입력의 편향 민감도에 따라 공정성 정규화 (fairness regularization)를 적응적으로 트리거하는 한편, 편향에 민감하지 않은 입력에 대해서는 교차 모달 정렬 (cross-modal alignment) 최적화에만 집중합니다. 공정성 벤치마크 (예: FairFace, UTKFace)에 대한 실험 결과, 균일한 디바이아싱의 트레이드오프를 해결하면서 제로샷 유용성을 동시에 향상시키는 동시에 상당한 편향 감소를 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기