arXiv논문2026. 05. 20. 11:00

매끄러운 연속 제어를 위한 암시적 액션 청킹 (Implicit Action Chunking)

요약

강화학습의 고주파 진동 문제를 해결하기 위해 액션 공간을 확장하지 않고도 시간적 일관성을 유지하는 '이중 윈도우 평활화(DWS)' 프레임워크를 제안합니다. DWS는 물리적 매끄러움을 위한 실행 윈도우와 크리틱 편향을 수정하는 가치 윈도우를 사용하여 시간적 추상화와 단계별 제어 사이의 간극을 메웁니다. 실험 결과, DeepMind Control Suite 및 자율 주행 태스크에서 기존 방식보다 뛰어난 성능과 안정성을 입증했습니다.

핵심 포인트

명시적 액션 청킹의 단점인 출력 차원 확장 및 최적화 어려움을 해결하는 암시적 방식 제안
이중 윈도우 설계(실행 윈도우 및 가치 윈도우)를 통한 물리적 매끄러움과 크리틱 편향 수정
1차 액션 차이에 기반한 경량화된 시간적 정규화 항을 통해 전역적 연속성 촉진
자율 주행 등 복잡한 태스크에서 지터(jitter) 감소 및 높은 성공률 달성

강화학습 (Reinforcement learning)은 종종 물리적 배포에 필요한 안전성과 안정성을 저해하는 고주파 진동 제어 신호를 생성합니다. 명시적 액션 청킹 (Explicit action chunking)은 고정된 호라이즌 (horizon) 궤적을 예측함으로써 이 문제를 해결하지만, 정책 출력 차원이 호라이즌 길이에 비례하여 확장되어 최적화의 어려움과 표준적인 단계별 상호작용 (step-wise interaction)과의 불일치를 초래합니다. 이러한 과제를 극복하기 위해, 본 논문은 매끄러운 연속 제어를 위한 암시적 액션 청킹 프레임워크인 이중 윈도우 평활화 (Dual-Window Smoothing, DWS)를 제안합니다. 명시적 방법과 달리, DWS는 액션 공간 (action space)을 확장하지 않고도 시간적 일관성 (temporal coherence)을 강제합니다. DWS는 이중 윈도우 설계를 사용합니다: 결정론적 변조 (deterministic modulation)를 통해 물리적 매끄러움을 보장하는 실행 윈도우 (execution window), 그리고 개루프 실행 (open-loop execution)으로 인해 발생하는 크리틱 편향 (critic bias)을 수정하기 위해 호라이즌 동안 시간차 (temporal-difference) 타겟을 정렬하는 가치 윈도우 (value window)입니다. 또한 DWS는 전역적 연속성을 촉진하기 위해 1차 액션 차이 (first-order action differences)에 기반한 경량화된 액터 측 시간적 정규화 항 (actor-side temporal regularizer)을 포함합니다. 이러한 설계는 시간적 추상화 (temporal abstraction)와 반응적인 단계별 제어 (reactive step-wise control) 사이의 간극을 효과적으로 메워줍니다. DeepMind Control Suite 및 산업용 에너지 관리 태스크를 포함한 벤치마크 실험에서 DWS는 최신 (SOTA) 베이스라인들을 능가하는 성능을 보여줍니다. 복잡한 시각 기반 자율 주행 태스크에서 DWS는 더 매끄러운 제어, 지터 (jitter)가 감소된 더 안전한 동작을 달성하며 100%의 성공률을 기록합니다.

AI 자동 생성 콘텐츠

원문 바로가기

매끄러운 연속 제어를 위한 암시적 액션 청킹 (Implicit Action Chunking)

요약

핵심 포인트

댓글