본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:42

추론 전 인지하기: 지름길에 강한 멀티모달 온폴리시 자기 증류를 위한 인지와 추론의 분리

요약

멀티모달 모델 학습 시 텍스트에만 의존하는 지름길 문제를 해결하기 위해 인지와 추론을 분리한 ViGOS 프레임워크를 제안합니다. 시각적 설명을 먼저 작성하도록 유도하여 이미지 기반의 근거 있는 추론을 강화합니다.

핵심 포인트

  • 온폴리시 자기 증류(OPSD)의 멀티모달 확장 시 발생하는 지름길 문제 해결
  • 인지(Perception)와 추론(Reasoning) 과정을 분리하여 시각적 근거 강화
  • 이미지 전용 인지 교사와 특권 추론 교사를 활용한 이중 감독 체계
  • 시각 수학, 공간적 근거 설정 등 다양한 벤치마크에서 성능 개선 입증

온폴리시 자기 증류 (On-policy self-distillation, OPSD)는 모델이 생성한 자신의 롤아웃 (rollouts)을 통해 학습하며, 참조 타겟 (reference target)에 조건화된 조밀한 토큰 수준 타겟 (dense token-level targets)을 제공하기 위해 동결된 복사본을 사용합니다. 이는 LLM 추론에는 효과적이지만, 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)로 직접 확장할 경우 지름길 (shortcut)이 생성될 수 있습니다. 즉, 특권 타겟 (privileged target)이 이미지보다는 주로 텍스트 참조 타겟에 기반하여 토큰을 안내할 수 있습니다. 우리는 MLLM 사후 학습 (post-training)을 위한 시각적으로 근거가 있는 OPSD 프레임워크인 ViGOS를 제안합니다. 학생 모델은 먼저 시각적 설명을 작성한 다음 최종 정답을 향해 추론합니다. 유효한 롤아웃 (valid rollouts)의 경우, 이미지 전용 인지 교사 (image-only perception teacher)가 설명을 감독하며, 특권 추론 교사 (privileged reasoning teacher)는 동일한 학생 접두사 (student prefix) 상에서 추론과 최종 정답을 감독합니다. 참조 교사 (reference teacher)는 출력 형식을 복구하기 위해 유효하지 않은 롤아웃 (invalid rollouts)에만 사용됩니다. 일반적인 시각-언어 (vision-language), 전문가 추론 (expert reasoning), 시각 수학 (visual math), 공간적 근거 설정 (spatial grounding), 시각-언어-사전 지식 (visual-language-prior) 벤치마크 전반에 걸쳐, ViGOS는 OPSD의 주요 이점을 유지하면서 지름길에 취약한 설정에서 이미지에 근거한 동작을 개선합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0