arXiv논문2026. 06. 02. 13:06

지각적 섭동(Perceptual Perturbation) 및 보상 모델링(Reward Modeling)을 통한 멀티모달

요약

멀티모달 모델이 시각적 증거보다 텍스트 서사에 의존하는 '지각적 판단 편향' 문제를 분석하고, 이를 해결하기 위한 새로운 학습 프레임워크를 제안합니다. 지각적 섭동 데이터셋과 GRPO 기반 보상 모델링을 통해 시각적 충실도와 평가 일관성을 개선합니다.

핵심 포인트

MLLM 판사의 시각적 증거 무시 및 텍스트 고착 현상 규명
지각적 섭동 판단 데이터셋을 통한 오류 격리 및 검증
GRPO 기반 보상과 배치 순위 지정 결합 프레임워크 개발
지각적 충실도 및 인간 평가와의 정렬 성능 향상

최근 멀티모달 거대 언어 모델(Multimodal Large Language Models, MLLM)은 강력한 추론 능력을 보여주었으나, 자동 평가자로서의 신뢰성은 결정적인 약점으로 인해 여전히 제한적입니다. 즉, 시각적 증거가 텍스트 단서와 충돌할 때, MLLM 판사(Judge)는 지각적으로 정확한 답변보다 그럴듯한 서사(Narrative)에 더 높은 점수를 주는 경향이 있습니다. 우리는 이 현상을 식별하고 체계적으로 분석하였으며, 이를 '지각적 판단 편향(Perceptual Judgment Bias)'이라고 명명합니다. 통제된 시각적 섭동(Visual Perturbations)을 통해 실험한 결과, 기존의 멀티모달 판사들은 자신의 시각적 지각 대신 응답 텍스트에 빈번하게 고착(Anchor)되어, 일관성이 없고 검증 불가능한 평가를 내리는 것으로 나타났습니다. 이 문제를 해결하기 위해, 우리는 지각적 오류를 격리하고 검증 가능한 감독(Supervision)을 가능하게 하는 최소한으로 편집된 반사실적 응답(Counterfactual Responses)을 구축한 '지각적 섭동 판단 데이터셋(Perceptually Perturbed Judgment Dataset)'을 도입합니다. 이 데이터셋을 바탕으로, 우리는 구조화된 GRPO 기반 보상(Reward)과 배치 순위 지정(Batch-ranking) 목적 함수를 결합하여, 명시적인 쌍체 라벨(Pairwise Labels) 없이도 일관된 전역 순위(Global Ordering)를 달성하는 통합 학습 프레임워크를 개발합니다. 다양한 MLLM-as-a-Judge 벤치마크를 통한 실험 결과, 우리의 접근 방식은 지각적 충실도(Perceptual Fidelity), 순위 일관성(Ranking Coherence), 그리고 인간 평가와의 정렬(Alignment)을 실질적으로 개선함을 보여줍니다. 우리의 연구 결과는 지각적으로 근거가 명확하고, 해석 가능하며, 시각적-추론 충돌에 강건한 멀티모달 판사를 학습시키기 위한 확장 가능하고 일반화 가능한 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지각적 섭동(Perceptual Perturbation) 및 보상 모델링(Reward Modeling)을 통한 멀티모달

요약

핵심 포인트

댓글