Reward Gating을 통한 CLIP의 선택적 테스트 단계 디바이아싱 (Selective Test-Time Debiasing)

시각-언어 모델 (Vision language models, VLMs)은 강력한 제로샷 (zero-shot) 성능을 보여주지만, 인물 중심의 쿼리 (queries)에서 사회적 고정관념을 지속시켜 왜곡된 인구 통계적 분포를 생성하는 경우가 많습니다. 현재의 디바이아싱 (debiasing) 방법들은 쿼리의 편향 민감도 (bias sensitivity)와 관계없이 모든 입력 쿼리에 대해 균일한 편향 교정을 적용하며, 이는 근본적인 공정성-유용성 트레이드오프 (fairness--utility trade-off)를 발생시킵니다. 강력한 디바이아싱은 편향에 민감하지 않은 쿼리에서 의미 있는 정보를 왜곡하는 반면, 약한 디바이아싱은 편향에 민감한 쿼리에서 고정관념을 완화하는 데 실패합니다. 이러한 일률적인 접근 방식은 편향에 민감하지 않은 쿼리에서의 높은 유용성과 편향에 민감한 쿼리에서의 공정성을 동시에 달성하는 것을 방해합니다. 본 논문에서는 입력 민감도에 따라 디바이아싱을 선택적으로 적용하는 강화학습 (reinforcement learning) 기반의 테스트 단계 적응 (test-time adaptation) 프레임워크인 Reward-Gated Test-Time Adaptation (RG-TTA)를 소개합니다. RG-TTA는 테스트 단계 정책 적응 (policy adaptation) 동안 각 입력의 편향 민감도에 따라 공정성 정규화 (fairness regularization)를 적응적으로 트리거하는 한편, 편향에 민감하지 않은 입력에 대해서는 교차 모달 정렬 (cross-modal alignment) 최적화에만 집중합니다. 공정성 벤치마크 (예: FairFace, UTKFace)에 대한 실험 결과, 균일한 디바이아싱의 트레이드오프를 해결하면서 제로샷 유용성을 동시에 향상시키는 동시에 상당한 편향 감소를 입증하였습니다.

Insights

Reward Gating을 통한 CLIP의 선택적 테스트 단계 디바이아싱 (Selective Test-Time Debiasing)

요약

핵심 포인트

댓글

기본 요소가 아닌 객체로서의 장면

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

AI의 자기 검수는 내부 식구에게 관대하다. 별도 계통 AI(codex/GPT/Gemini)에게 채점하게 하는 OSS 「loop-verify」

Vertigo Vertigo: 예측적 AI 더블을 통한 영화적 이상향의 재구성

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)