본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:06

Odysseus: 게임 내 100 회 이상의 결정 작업을 위한 VLM 확장

요약

본 논문은 시각-언어 모델(VLM)의 역량을 비디오 게임과 같은 장기적이고 상호작용적인 결정 작업으로 확장하기 위한 새로운 RL 기반 훈련 프레임워크인 Odysseus를 제안합니다. 기존 VLM 접근법이 짧은 지평이나 대규모 감독 데이터에 의존했던 한계를 극복하고, Super Mario Land와 같은 환경에서 100회 이상의 연속적인 상호작용을 성공적으로 수행하는 것을 목표로 합니다. 연구진은 PPO 변형과 경량화된 크리틱(critic) 적용을 통해 훈련 안정성과 샘플 효율성을 개선했으며, 사전 학습된 VLM이 제공하는 행동 선행 확률(action priors)의 활용을 통해 수동 설계 의존도를 낮추고 실질적인 성능 향상을 입증했습니다.

핵심 포인트

  • Odysseus는 VLM 에이전트를 위한 오픈 소스 훈련 프레임워크로, 장기적이고 상호작용적인 게임 환경에 특화되어 있다.
  • 100회 이상의 연속적인 결정 작업(장기 지형 결정)을 위해 RL 기반의 안정적이고 효율적인 훈련 방법을 제시한다.
  • PPO 변형과 경량화된 크리틱 적용을 통해 기존 대비 훈련 안정성과 샘플 효율성을 크게 개선했다.
  • 사전 학습된 VLM이 제공하는 행동 선행 확률(action priors)을 활용하여 수동 설계 없이도 RL 성능 향상을 이끌어낸다.

시각-언어 모델 (VLM) 의 역량이 급격히 성장함에 따라, 비디오 게임과 같은 상호작용적 결정 작업으로 이를 확장하는 것은 유망한 연구 분야로 부상했습니다. 그러나 기존 접근법은 인간 궤적을 대규모로 감독 미세 조정 (SFT) 에 의존하거나, 상대적으로 짧은 지평 설정 (보통 20~30 회) 에서만 강화 학습 (RL) 을 적용합니다. 본 작업에서는 Super Mario Land 라는 시각적 기반 환경에서 조율된 인식, 추론, 행동이 필요하며 100 회 이상의 상호작용을 요구하는 장기 지형 결정 작업을 위한 VLM 의 RL 기반 훈련을 연구합니다. 우리는 먼저 핵심 알고리즘 구성 요소를 체계적으로 조사하고, PPO 의 변형을 제안하며, 경량화된 턴 레벨 크리틱 (critic) 을 적용하여 GRPO 나 Reinforce++ 와 같은 크리틱 없는 방법들보다 훈련 안정성과 샘플 효율성을 현저히 개선합니다. 또한 사전 학습된 VLM 이 강력한 행동 선행 확률 (action priors) 을 제공하며, 이는 RL 훈련 동안 샘플 효율성을 크게 향상시키고, 행동 엔지니어링과 같은 수동 설계 선택의 필요성을 줄입니다. 이러한 통찰을 바탕으로 우리는 Odysseus 를 소개합니다. 이는 VLM 에이전트를 위한 오픈 소인 훈련 프레임워크로, 게임의 여러 수준에서 실질적인 성능 향상을 이루며, 최첨단 모델 대비 평균 게임 진행도를 최소 3 배 이상 개선합니다. 또한 훈련된 모델은 게임 내 일반화 및 교차 게임 일반화 설정 모두에서 일관된 성능 향상을 보이며, 일반 도메인 능력을 유지합니다. 종합적으로, 우리의 결과는 장기 지형 다중 모달 환경에서 RL 을 안정적이고 효과적으로 만드는 핵심 요소를 확인하며, VLM 을 임베디드 에이전트로 개발하는 데 실질적인 지침을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0