arXiv논문2026. 06. 15. 07:23

DIRECT: Embodied Planners에서 테스트 시간 연산(Test-Time Compute)을 언제, 어디에 할당해야 하는가?

요약

체화된 에이전트를 위한 VLM 플래너의 테스트 시간 연산(test-time compute) 효율성을 최적화하는 DIRECT 프레임워크를 제안합니다. 무분별한 연산 확장 대신 멀티모달 문맥을 활용해 연산을 전략적으로 할당함으로써, 지연 시간을 대폭 줄이면서도 높은 성공률을 유지합니다.

핵심 포인트

테스트 시간 연산의 무분별한 확장은 지연 시간과 비용을 증가시킴
DIRECT는 성공-비용 파레토 프런티어를 개선하는 라우팅 프레임워크임
CoT 깊이, 모델 크기, 메모리 이력은 서로 다른 질적 향상을 제공함
실제 로봇 환경에서 평균 지연 시간을 최대 65% 감소시킴

시각-언어 모델 (Vision-Language Models, VLMs)은 체화된 에이전트 (embodied agents)를 위한 상위 수준의 플래너 (planners)로 점점 더 많이 배치되고 있으며, 능력을 향상시키기 위해 테스트 시간 연산 (test-time compute)을 확장하는 전략이 부상하고 있습니다. 그러나 우리는 그렇게 하는 것이 지연 시간 (latency), 토큰 사용량 (token usage), 그리고 FLOPs를 증가시키는 반면, 하위 작업의 성공률에서는 불균형하고 종종 점차 감소하는 이득을 가져와 체화된 에이전트가 배치될 수 있는 범위를 제한한다는 것을 관찰했습니다. 우리는 테스트 시간 연산을 언제, 어디에 사용할지 선택하는 것이 최첨단 성능을 현실 세계로 가져오는 데 핵심적이라고 주장합니다. 우리는 멀티모달 장면 문맥 (multimodal scene context)을 사용하여 프롬프트당 연산을 할당함으로써, 고정된 모델 선택 대비 성공-비용 파레토 프런티어 (success--cost Pareto frontier)를 개선하는 라우팅 프레임워크인 DIRECT를 소개합니다. 사고의 사슬 (chain-of-thought) 깊이, 모델 크기 (model size), 그리고 메모리 이력 (memory history)이라는 세 가지 주요 확장 축에 대해, VLABench 및 RoboMME에서의 실험은 테스트 시간 연산이 균일한 레버가 아님을 보여줍니다: 서로 다른 축은 질적으로 구별되는 능력 향상을 가져옵니다. 우리는 제로샷 조작 (zero-shot manipulation) 및 장기 지평 체이닝 (long-horizon chaining)을 아우르는 DROID 설정의 물리적 Franka 암 (Franka arm)에서 이러한 통찰력을 검증하였으며, 여기서 우리의 라우터는 평균 지연 시간을 최대 65% 낮추면서도 더 강력한 모델의 성공률과 일치하거나 이를 능가합니다. 궁극적으로, 우리의 결과는 테스트 시간 연산을 무분별하게 확장하는 것은 낭비이며, DIRECT가 로봇 시스템에서 비용의 극히 일부만으로 최첨단 수준의 체화된 계획 (embodied planning)을 제공할 수 있음을 보여줍니다. 프로젝트 페이지는 jadee-dao.github.io/direct/에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DIRECT: Embodied Planners에서 테스트 시간 연산(Test-Time Compute)을 언제, 어디에 할당해야 하는가?

요약

핵심 포인트

댓글