arXiv논문2026. 05. 19. 17:27

효율적인 에이전트 추론을 위한 잠재 행동 재매개변수화 (Latent Action Reparameterization)

요약

LLM 에이전트의 긴 텍스트 행동 시퀀스로 인한 높은 추론 비용과 긴 결정 지평 문제를 해결하기 위해 '잠재 행동 재매개변수화(LAR)' 프레임워크를 제안합니다. LAR은 에이전트의 궤적으로부터 다단계 의미론적 행동을 압축된 잠재 단위로 학습하여, 표현력을 유지하면서도 의사결정 지평을 단축합니다. 이를 통해 작업 성공률을 유지하면서도 행동 토큰 수와 실제 추론 시간을 실질적으로 감소시킵니다.

핵심 포인트

기존의 시스템 최적화나 프롬프트 엔지니어링 대신 행동 공간(action space)의 표현 방식 자체를 개선함
수작업 매크로가 아닌 에이전트의 궤적으로부터 직접 잠재 행동을 학습하여 모델에 통합
유효 행동 지평을 단축하여 고정된 연산 예산 내에서 추론 효율성 향상
행동 토큰 감소를 통해 실제 추론 시간(wall-clock inference time)을 실질적으로 절감

대규모 언어 모델 (LLM) 에이전트는 종종 긴 저수준 텍스트 행동 (low-level textual actions) 시퀀스에 의존하며, 이는 결과적으로 큰 유효 결정 지평 (effective decision horizons)과 높은 추론 비용을 초래합니다. 기존 연구들이 시스템 수준의 최적화나 프롬프트 엔지니어링 (prompt engineering)을 통해 추론 효율성을 개선하는 데 집중해 온 반면, 우리는 핵심적인 병목 현상이 행동 공간 (action space) 자체의 표현 방식에 있다고 주장합니다. 우리는 각 잠재 행동 (latent action)이 다단계의 의미론적 행동 (multi-step semantic behavior)에 대응하는 압축된 잠재 행동 공간을 학습하는 프레임워크인 잠재 행동 재매개변수화 (Latent Action Reparameterization, LAR)를 제안합니다. 에이전트의 행동을 잠재 단위 (latent units)로 재매개변수화함으로써, LAR은 기존 행동 공간의 표현력을 유지하면서도 더 짧은 유효 지평 (effective horizon) 내에서 의사결정을 가능하게 합니다. 수작업으로 제작된 매크로 (hand-crafted macros)나 계층적 컨트롤러 (hierarchical controllers)와 달리, 잠재 행동은 에이전트의 궤적 (trajectories)으로부터 학습되어 모델에 직접 통합되며, 이를 통해 계획 (planning)과 실행 (execution) 모두 추상적인 행동 표현 위에서 작동할 수 있습니다. 다양한 LLM 기반 에이전트 벤치마크에 걸쳐, LAR은 유효 행동 지평을 크게 단축하고 고정된 연산 예산 (compute budgets) 하에서 추론 효율성을 향상시킵니다. 결과적으로, 우리의 접근 방식은 작업 성공률을 유지하거나 개선하면서도 행동 토큰 (action tokens)과 그에 따른 실제 추론 시간 (wall-clock inference time)을 실질적으로 감소시킵니다. 이러한 결과는 행동 표현 학습 (action representation learning)이 모델 아키텍처 및 하드웨어의 발전과 상호 보완적인 관계를 가지며, 효율적인 LLM 에이전트 추론을 확장하는 데 있어 매우 중요하지만 아직 충분히 탐구되지 않은 요소임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

효율적인 에이전트 추론을 위한 잠재 행동 재매개변수화 (Latent Action Reparameterization)

요약

핵심 포인트

댓글