V-ABS: 동적 시각 추론을 위한 액션-관찰자 주도 빔 서치

멀티모달 대규모 언어 모델(MLLMs)은 일반적인 인식 분야에서 놀라운 성공을 거두었지만, 복잡한 다단계 시각 추론은 여전히 지속적인 과제로 남아 있습니다. 최근의 에이전트적 접근 방식들은 도구 사용을 통합하고 있지만, 종종 중요한 실행 피드백을 간과합니다. 결과적으로 이들은 상상-행동-관찰자(IAO) 편향에 시달리는데, 이는 사전 상상과 관찰자 피드백 사이의 불일치로 추론 안정성과 최적성을 저해합니다. 이 격차를 해소하기 위해, 우리는 액션-관찰자 주도 빔 서치 프레임워크인 V-ABS를 소개하며, 이를 통해 사유자-행위자-관찰자(thinker-actor-observer) 반복을 거쳐 의도적인 추론이 가능하게 합니다. 또한, 정책 사전 확률과 관찰 피드백 간의 신뢰도 점수를 동적으로 균형 있게 조정하여 IAO 편향을 완화하는 엔트로피 기반 적응 가중치 알고리즘을 제안합니다. 더욱이, 모델이 올바른 행동 경로에 더 높은 사전 신뢰도를 할당하도록 안내하기 위해 80k개가 넘는 샘플로 구성된 대규모 지도 미세 조정(SFT) 데이터셋을 구축했습니다. 여덟 가지 다양한 벤치마크 전반에 걸친 광범위한 실험 결과, V-ABS가 최첨단 성능을 달성했으며, Qwen3-VL-8B 기준선 대비 평균 19.7%의 개선과 오픈 소스 및 독점 모델 모두에서 일관된 향상을 보여주었습니다.

Insights

V-ABS: 동적 시각 추론을 위한 액션-관찰자 주도 빔 서치

요약

핵심 포인트

댓글

과장된 홍보를 넘어: TormentNexus가 흔들림 없는 AI 백엔드 성능을 위해 Go + TypeScript 모놀리스를 마스터하는 방법

아무도 당신의 주식을 사주지 않는다

CI/CD를 넘어: AI 에이전트를 위한 GitOps - 에이전트의 메모리를 버전 관리하고 파괴적 학습을 롤백하는 방법

Core ML과 Core AI의 차이점

과장된 홍보를 넘어: TormentNexus가 흔들림 없는 AI 백엔드 성능을 위해 Go + TypeScript 모놀리스를 마스터하는 방법

아무도 당신의 주식을 사주지 않는다

CI/CD를 넘어: AI 에이전트를 위한 GitOps - 에이전트의 메모리를 버전 관리하고 파괴적 학습을 롤백하는 방법

Core ML과 Core AI의 차이점