arXiv논문2026. 06. 26. 12:08

E-TTS: 로봇 조작을 위한 새로운 체화된 테스트 시간 스케일링 (Embodied Test-Time Scaling) 프레임워크

요약

E-TTS는 로봇 조작을 위해 추론과 액션 스케일링을 통합한 새로운 체화된 테스트 시간 스케일링 프레임워크입니다. 시각-언어 검증기와 히스토리 버퍼를 활용하여 과거 문맥을 반영한 폐루프 반복 정제 메커니즘을 제공합니다.

핵심 포인트

추론과 액션의 공동 스케일링을 지원하는 모듈식 프레임워크
히스토리 버퍼를 통해 과거 문맥을 활용한 이력 인식 정제 수행
폐루프 피드백 메커니즘으로 추론 효율성 및 환경 적응성 향상
재학습 없이 시뮬레이션 및 실제 환경에서 성능 대폭 개선

최근 몇몇 연구들이 체화된 작업 (embodied tasks)을 위한 테스트 시간 스케일링 (test-time scaling)을 연구하기 위한 초기 시도를 해왔습니다. 그러나 두 가지 주요 과제가 해결되지 않은 채 남아 있습니다: (1) 추론 (reasoning)이 정책 (policy)의 성능을 효과적으로 향상시킬 수 있지만, 그 스케일링 메커니즘은 거의 연구되지 않았습니다; (2) 체화된 작업은 본질적으로 장기적 (long-horizon)이고 순차적 (sequential)이기 때문에 과거 정보가 필수적이며, 과거 문맥 (historical context) 활용의 부족으로 인해 현재의 관측 (observations)에만 의존하여 액션 스케일링 (action scaling)을 수행하는 것은 불충분합니다. 이러한 과제를 해결하기 위해, 우리는 시각-언어 검증기 (vision-language verifiers)를 통한 이력 인식 반복 정제 (history-aware iterative refinement)를 통해 로봇 조작을 위한 추론과 액션 스케일링을 통합하는 모듈식이며 플러그 앤 플레이 (plug-and-play) 방식인 체화된 테스트 시간 스케일링 (Embodied Test-Time Scaling) 프레임워크인 E-TTS를 소개합니다. 추론-액션 공동 스케일링 (joint reasoning-action scaling)을 지원하기 위해, E-TTS는 쌍별 방식 (pairwise manner)으로 추론-액션 공동 샘플링 (reasoning-action joint sampling) 및 점수 산정 (scoring)을 수행합니다. 과거 정보를 더 잘 활용하기 위해, E-TTS는 과거 문맥을 저장하는 히스토리 버퍼 (history buffer)를 사용하며, 이는 추론 및 액션 검증기 (reasoning and action verifiers)에 의해 샘플링된 후보군을 평가하는 데 사용됩니다. 기존의 오픈 루프 (open-loop) TTS 방식과 달리, E-TTS는 샘플링 과정에 피드백 생성을 도입하여 폐루프 (closed-loop) 반복 정제 메커니즘을 형성함으로써 추론 효율성과 환경 적응성을 모두 향상시킵니다. 각 구성 요소는 독립적이고 결합 가능한 모듈로 작동하여, 작업 요구 사항에 따라 유연하고 적응적인 구성을 허용합니다. 우리 프레임워크의 장점을 평가하기 위해, 우리는 4개의 서로 다른 벤치마크, 6개의 환경, 3개의 체화된 형태 (embodiments), 그리고 4개의 기본 시각-언어-액션 모델 (vision-language-action models)에 대해 실험을 수행했습니다. 실험 결과는 추가적인 전문가 데이터 수집이나 재학습 없이도 E-TTS가 일관되게 성능을 향상시키며, 시뮬레이션에서 최대 33.14%, 실제 환경 시나리오에서 26.62%의 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

E-TTS: 로봇 조작을 위한 새로운 체화된 테스트 시간 스케일링 (Embodied Test-Time Scaling) 프레임워크

요약

핵심 포인트

댓글