V-ABS: 동적 시각 추론을 위한 액션-관찰자 주도 빔 서치
요약
V-ABS는 복잡한 다단계 시각 추론 과정에서 발생하는 '상상-행동-관찰자(IAO) 편향' 문제를 해결하기 위해 설계된 액션-관찰자 주도 빔 서치 프레임워크입니다. 이 프레임워크는 사유자-행위자-관찰자 반복을 통해 의도적인 추론을 가능하게 하며, 정책 사전 확률과 관찰 피드백 간의 신뢰도를 동적으로 균형 조정하는 엔트로피 기반 적응 가중치 알고리즘을 도입했습니다. 대규모 지도 미세 조정(SFT) 데이터셋으로 훈련된 V-ABS는 다양한 시각 추론 벤치마크에서 최첨단 성능을 입증하며, 기존 모델 대비 높은 개선율을 보여주었습니다.
핵심 포인트
- V-ABS는 복잡한 다단계 시각 추론의 핵심 문제인 IAO 편향(상상-행동-관찰자 불일치)을 해결합니다.
- 액션-관찰자 주도 빔 서치를 통해 사유자-행위자-관찰자 반복 구조를 구현하여 의도적인 추론 과정을 지원합니다.
- 엔트로피 기반 적응 가중치 알고리즘을 사용하여 정책 사전 확률과 관찰 피드백 간의 신뢰도를 동적으로 균형 있게 조정합니다.
- 80k개 이상의 대규모 지도 미세 조정(SFT) 데이터셋으로 훈련되어 다양한 시각 추론 벤치마크에서 높은 성능 향상을 달성했습니다.
멀티모달 대규모 언어 모델(MLLMs)은 일반적인 인식 분야에서 놀라운 성공을 거두었지만, 복잡한 다단계 시각 추론은 여전히 지속적인 과제로 남아 있습니다. 최근의 에이전트적 접근 방식들은 도구 사용을 통합하고 있지만, 종종 중요한 실행 피드백을 간과합니다. 결과적으로 이들은 상상-행동-관찰자(IAO) 편향에 시달리는데, 이는 사전 상상과 관찰자 피드백 사이의 불일치로 추론 안정성과 최적성을 저해합니다. 이 격차를 해소하기 위해, 우리는 액션-관찰자 주도 빔 서치 프레임워크인 V-ABS를 소개하며, 이를 통해 사유자-행위자-관찰자(thinker-actor-observer) 반복을 거쳐 의도적인 추론이 가능하게 합니다. 또한, 정책 사전 확률과 관찰 피드백 간의 신뢰도 점수를 동적으로 균형 있게 조정하여 IAO 편향을 완화하는 엔트로피 기반 적응 가중치 알고리즘을 제안합니다. 더욱이, 모델이 올바른 행동 경로에 더 높은 사전 신뢰도를 할당하도록 안내하기 위해 80k개가 넘는 샘플로 구성된 대규모 지도 미세 조정(SFT) 데이터셋을 구축했습니다. 여덟 가지 다양한 벤치마크 전반에 걸친 광범위한 실험 결과, V-ABS가 최첨단 성능을 달성했으며, Qwen3-VL-8B 기준선 대비 평균 19.7%의 개선과 오픈 소스 및 독점 모델 모두에서 일관된 향상을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기