RoboAlign-R1: 로봇 비디오 월드 모델용 정교화된 멀티모달 보상 정렬
요약
RoboAlign-R1은 기존 로봇 비디오 월드 모델의 한계를 극복하기 위해 보상 정렬 후 훈련과 안정화된 장기 추론 기법을 결합한 프레임워크입니다. 이 프레임워크는 RobotWorldBench라는 새로운 벤치마크와 멀티모달 스터디지 Judge를 활용하여 로봇의 명령어 수행, 조작 성공 등 실제 작업 일관성을 높이는 데 중점을 둡니다. 실험 결과, RoboAlign-R1은 기존 최고 성능 모델 대비 전반적인 평가 지표에서 유의미한 점수 향상을 보였으며, 특히 장기 예측 품질을 개선하는 SWR 기법도 효과적임을 입증했습니다.
핵심 포인트
- RoboAlign-R1은 로봇 비디오 월드 모델에 '보상 정렬 후 훈련'과 '안정화된 장기 추론'을 결합하여 실제 작업 수행 능력을 향상시킵니다.
- 새롭게 구축된 RobotWorldBench는 주석 처리된 비디오-명령어 쌍을 포함하며, 로봇의 성능을 세밀하게 평가할 수 있는 벤치마크를 제공합니다.
- 장기적 예측 오류 누적(rollout drift) 문제를 해결하기 위해 Sliding Window Re-encoding (SWR) 기법이 도입되어 장기적인 물리적 현실성을 유지합니다.
- RoboAlign-R1은 명령어 수행 및 조작 정확도 등 핵심 로봇 작업 일관성 지표에서 기존 최고 성능 모델 대비 높은 개선율을 달성했습니다.
기존 로봇 비디오 월드 모델은 주로 재구성 (reconstruction) 과 지각적 유사성 (perceptual similarity) 같은 저수준 목표 (low-level objectives) 로 훈련되며, 이는 로봇 의사결정에 가장 중요한 능력인 명령어 수행 (instruction following), 조작 성공 (manipulation success), 물리적 타당성 (physical plausibility) 과는 잘 정렬되지 않았습니다. 또한 장기적 자기회귀 예측 (long-horizon autoregressive prediction) 에서 오류가 누적되는 문제도 겪습니다. 우리는 로봇 비디오 월드 모델에 대해 보상 정렬 후 훈련 (reward-aligned post-training) 과 안정화된 장기적 추론 (stabilized long-horizon inference) 을 결합한 RoboAlign-R1 프레임워크를 제시합니다. 우리는 4 개의 로봇 데이터 소스에서 수집한 10,000 쌍의 주석 처리된 비디오-명령어 쌍을 포함하는 RobotWorldBench 벤치마크를 구축하고, 세밀한 6 차원 평가 (fine-grained six-dimensional evaluation) 를 제공하기 위해 멀티모달 스터디지 Judge 로 RoboAlign-Judge 를 훈련했습니다. 우리는 이 스터디지를 효율적인 강화학습 기반 후 훈련을 위한 경량화된 학생 보상 모델로 정렬 (distill) 했습니다. 장기적 롤아웃 드리프트 (long-horizon rollout drift) 를 줄이기 위해, 우리는 주기적으로 생성 컨텍스트를 새로워지는 Sliding Window Re-encoding (SWR) 을 추가했습니다. 우리의 도메인 내 평가 프로토콜에서 RoboAlign-R1 은 가장 강력한 베이스라인보다 10.1% 점수 향상으로 총합 6 차원 점수를 개선하며, 조작 정확도 (Manipulation Accuracy) 에서 7.5%, 명령어 수행 (Instruction Following) 에서 4.6% 의 향상을 보였습니다. 이러한 순위 개선은 외부 VLM 기반 교차 확인과 맹검법 인간 연구에 의해 추가적으로 지원됩니다. 또한 SWR 은 약 1% 추가 지연 시간으로 장기적 예측 품질을 향상시키며, SSIM 에서 2.8%, LPIPS 에서 9.8% 를 감소시켰습니다. 이 결과는 보상 정렬 후 훈련과 안정화된 장기적 디코딩이 로봇 비디오 월드 모델에서 작업 일관성 (task consistency), 물리적 현실성 (physical realism), 장기적 예측 품질을 개선함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기