arXiv논문2026. 06. 25. 12:18

동일한 증거, 다른 답변: 멀티모달 거대 언어 모델(MLLM)의 순서 민감도 감사

요약

멀티모달 거대 언어 모델(MLLM)의 입력 순서 변화에 따른 답변 불안정성을 분석한 연구입니다. 18개의 모델을 대상으로 Facet-Probe를 통해 감사한 결과, 모든 모델이 순서 민감성을 보였으며 프롬프트 수정만으로는 이를 해결하기 어렵다는 점을 밝혀냈습니다.

핵심 포인트

MLLM의 입력 순서 변화가 답변의 신뢰성을 저해함
감사 도구 Facet-Probe를 통한 5가지 측면의 편향 분석
테스트된 18개 모델 모두 순서 불변성을 확보하지 못함
프롬프트 수준의 완화는 일반적인 강건성 제공에 한계가 있음
교차 순서 반전율을 새로운 표준 보고 축으로 제안

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)을 위한 표준 벤치마크는 하나의 정형화된 순서(canonical ordering)에 따라 각 항목의 점수를 매기며, 순서와 무관한 셔플링(shuffling)이 답변을 변화시키는지 여부를 놓치고 있습니다. 이는 최근 등장하는 AI 평가 가이드라인에서 요구하는 기초적인 신뢰성 속성입니다. 우리는 18개의 프런티어(frontier) 및 오픈 웨이트(open-weight) MLLM을 대상으로 5가지 측면(옵션, 증거 청크, 문서 순위, 이미지 세트, 혼합 모달리티 순서)의 감사 도구인 Facet-Probe를 소개합니다. 베이지안 문항 반응 모델(Bayesian item-response model)은 순서 노이즈를 각 측면별 편향(per-facet bias)과 분리하며, 동일 순서 대조군(same-ordering control)은 관찰된 답변 반전(flips)에 대한 디코더 확률적 하한선(decoder-stochastic floor)을 추정합니다. 우리가 감사한 18개의 MLLM 중 순서 불변성(order-invariant)을 가진 모델은 하나도 없음을 발견했습니다. 측면별로 선별된 패널 평균 반전율은 24~50%에 달합니다. Temperature 0에서의 Gemini 동일 순서 대조군은 검증된 셀(cells)에서 동일 입력 디코더 노이즈 하한선보다 상당한 순서 초과(ordering excess)가 있음을 추정합니다. 능력(Capability)은 반전을 예측할 수는 있지만 제거하지는 못하며, 가장 우수한 모델조차 여전히 13.4%의 시행에서 답변이 반전됩니다. 우리의 Gemini 완화 테스트에서, 훈련이 필요 없는 프롬프트 변경은 모달리티 조건부(modality-conditional)이며 텍스트에서 시각적 추론으로 전이되지 않습니다. 이러한 결과는 프롬프트 수준의 완화만으로는 일반적인 순서 강건성(order robustness)을 제공하기 어려울 가능성이 높음을 시사하며, 향후 훈련 단계 및 아키텍처 접근 방식에 대한 연구 동기를 부여합니다. 우리는 교차 순서 반전율(cross-ordering flip rate)을 MLLM의 표준 보고 축으로 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

동일한 증거, 다른 답변: 멀티모달 거대 언어 모델(MLLM)의 순서 민감도 감사

요약

핵심 포인트

댓글