arXiv논문2026. 06. 01. 12:02

모호한 입력 상황에서 시각-언어 모델(VLMs)의 여성 재현 억제 현상

요약

시각-언어 모델(VLMs)이 모호한 입력 상황에서 직업-성별 스테레오타입을 어떻게 출력하는지 분석한 연구입니다. 모델이 내부적으로는 여성 연관성을 인코딩하더라도, 출력 단계에서 남성 신호가 증폭되고 여성 신호가 억제되는 현상을 발견했습니다.

핵심 포인트

모호한 이미지 입력 시 직업-성별 기본값 편향 발생
LALS 지표를 통해 내부 표현과 출력값의 불일치 확인
레이어별 분석 결과 여성 신호가 생성 전 단계에서 억제됨
의복 색상 등 시각적 단서가 내부 연관성 조절에 영향

정렬 (Alignment)은 시각-언어 모델 (Vision-Language Models, VLMs)이 인구통계학적 편향을 표현하지 않도록 학습시키며, 성별이 명확하게 보이는 경우에는 대체로 성공합니다. 하지만 실제 상황에서 흔히 발생하지만 연구는 거의 이루어지지 않은 모호한 입력 (예: 장비를 완전히 갖춘 작업자, 뒷모습만 보이는 인물) 사례에 대해서는 알려진 바가 훨씬 적습니다. 본 연구에서는 모호한 입력 이미지를 프롬프트로 사용할 때, 최소한의 프롬프트 압력 (prompting pressure)만으로도 직업-성별 기본값 (occupation-gender defaults)이 드러남을 발견했습니다. 모델은 강력하게 여성으로 스테레오타입화된 직업에 대해서조차 남성으로 붕괴 (collapsing)되는 경향을 보입니다. 그렇다면 이러한 출력값이 모델이 내부적으로 실제로 인코딩 (encode)하고 있는 내용을 반영하는 것일까요? 우리는 시각적 토큰 활성화 (visual-token activations)를 모델의 텍스트 임베딩 (text-embedding) 공간으로 투영하여 토큰 및 레이어별 개념 연관성을 측정하는 제로샷 지표인 LALS (Latent Association Leaning Score)를 도입합니다. 15개의 직업, 800개 이상의 성별 모호 이미지를 대상으로 4개의 VLMs를 분석한 결과, 내부 표현 (internal representations)과 출력값은 체계적으로 분리되어 있음이 밝혀졌습니다. 즉, 모델은 내부적으로는 여성 연관성을 인코딩하고 있음에도 불구하고 출력은 남성으로 내보내는 경우가 많습니다. 레이어별 분석 (Layer-wise analysis)을 통해 비대칭적 필터가 존재함을 확인했습니다. 남성 신호는 엔드 투 엔드 (end-to-end)로 증폭되는 반면, 여성 신호는 네트워크 중간 단계에서 정점을 찍은 후 생성 (generation) 전 단계에서 억제됩니다. 또한 컬러 어블레이션 (color ablation) 실험을 통해 의복 색상과 같이 문화적으로 의미가 담긴 시각적 단서가 이러한 내부 연관성을 더욱 조절한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

모호한 입력 상황에서 시각-언어 모델(VLMs)의 여성 재현 억제 현상

요약

핵심 포인트

댓글