arXiv논문2026. 04. 29. 12:29

SIEVES: 시각적 증거 점수를 통한 선택적 예측은 일반화 성능을 향상시킵니다

요약

본 논문은 멀티모달 대규모 언어 모델(MLLMs)의 신뢰할 수 있는 배포를 위해 '선택적 예측' 기법인 SIEVES를 제안합니다. SIEVES는 답변에 대한 확신 점수를 기반으로 시스템이 답변하는 입력의 비율(커버리지)을 높여, 사용자가 정의한 위험 수준을 준수하게 합니다. 이 방법은 국소화된 시각적 증거와 그 품질 추정을 결합하여 OOD(실제 세계 분포 밖) 벤치마크에서 커버리지를 최대 3배까지 향상시키며, 다양한 독점 모델에서도 전이 학습이 가능함을 입증했습니다.

핵심 포인트

SIEVES는 MLLMs의 신뢰성 있는 배포를 위해 선택적 예측(Selective Prediction)을 도입합니다.
핵심 목표는 답변에 대한 확신 점수를 활용하여 커버리지(Coverage, 시스템이 답변하는 입력 비율)를 향상시키는 것입니다.
국소화된 시각적 증거 생성 및 품질 추정 메커니즘을 통해 OOD 벤치마크에서 성능을 입증했습니다.
SIEVES는 다양한 독점 모델(o3, Gemini-3-Pro 등)과 여러 테스트 데이터셋에 걸쳐 뛰어난 일반화 능력을 보여줍니다.

멀티모달 대규모 언어 모델 (MLLMs) 은 시각-언어 작업에서 더욱 강력한 성능을 달성하고 있습니다. 전통적인 시각적 질문 답변 벤치마크가 포화 상태에 가까워지는 가운데, 실제 세계의 분포 밖 (OOD) 시나리오에서 낮은 오차 허용도를 충족시키는 것이 신뢰할 수 있는 배포를 위해 필수적입니다. 구체적으로, 선택적 예측은 사용자가 정의한 위험 수준을 준수하면서 시스템이 답변하는 입력의 비율인 커버리지 (coverage) 를 향상시키는 것을 목표로 합니다. 이는 일반적으로 각 답변에 대한 확신 점수를 할당하고 특정 임계값 이하인 경우 답변을 참치기 (abstain) 로 하여 달성됩니다. 신뢰할 수 있는 일반화를 가능하게 하기 위해, 우리는 추론 모델이 답변하는 동안 국소화된 시각적 증거를 생성하도록 하고, 추론자가 제공하는 국소화의 품질을 명시적으로 추정하도록 선택기를 학습하도록 설계합니다. 우리는 SIEVES (선택적 예측을 통한 시각적 증거 점수) 가 비-grounding 베이스라인에 비해 도전적인 OOD 벤치마크 (V* Bench, HR-Bench-8k, MME-RealWorld-Lite, VizWiz, 및 AdVQA) 에서 커버리지를 최대 3 배까지 향상시킨다는 것을 보여줍니다. OOD 작업에 대한 더 나은 일반화뿐만 아니라, SIEVES 선택기의 설계는 가중치나 logits 에 접근할 수 없는 o3 와 Gemini-3-Pro 와 같은 독점적 추론기로도 전이 (transfer) 를 가능하게 하여, 정확도만으로 설명 가능한 것 이상의 커버리지 향상을 제공합니다. 우리는 SIEVES 가 벤치마크 또는 추론기별 훈련이나 적응 없이 모든 5 개 테스트 OOD 데이터셋과 추론기 모델 (Pixel-Reasoner, o3, 및 Gemini-3-Pro) 에서 일반화한다는 점을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SIEVES: 시각적 증거 점수를 통한 선택적 예측은 일반화 성능을 향상시킵니다

요약

핵심 포인트

댓글