행동 잠재 변수(Behavior Latents)를 이용한 제어 가능한 시뮬레이션 에이전트
요약
CNeVA는 행동 잠재 변수를 활용하여 제어 가능한 시뮬레이션 에이전트를 구현하는 프레임워크입니다. Waymo 데이터셋을 통해 현실적인 주행 모방과 동시에 속도, 가속도 등 특정 변수를 정밀하게 조종할 수 있음을 입증했습니다.
핵심 포인트
- 가우시안 행동 잠재 변수를 통한 에이전트 제어 가능성 확보
- Rectified-flow 궤적 생성기를 활용한 고품질 시뮬레이션 구현
- Soft eligibility gates 도입으로 보상 해킹 문제 해결
- Waymo Open Motion Dataset에서 높은 현실성 및 제어 성능 입증
현실적인 교통 시뮬레이션에는 기록된 행동을 모방하면서도 해석 가능한 축을 따라 조종할 수 있는 에이전트가 필요합니다. 이러한 제어 가능성(Controllability)을 통해 엔지니어는 변수를 격리하고, 특정 엣지 케이스(edge cases)를 재현하며, 실제 세계의 위험 없이 자율 주행 시스템을 테스트할 수 있습니다. 우리는 Controllable Neural Variational Agents (CNeVA)를 소개합니다. 이는 closed-form conjugate variational update를 통해 채널별 할인된 수익(per-channel discounted returns)으로부터 에이전트별 가우시안 행동 잠재 변수(Gaussian behavior latent)를 추론하도록 학습하며, classifier-free guidance를 위한 혼합 채널 마스크 커리큘럼(mixed channel-mask curriculum)으로 학습된 rectified-flow 궤적 생성기(trajectory generator)를 조건화하는 제어 가능한 시뮬레이션 에이전트 프레임워크입니다. 보상 신호(reward signals)의 부족 문제를 해결하기 위해, 우리는 하드 이진 임계값(hard binary thresholds)을 부드러운 지수적 감쇠(smooth exponential decay)로 대체하여 임계값 근처의 에이전트에 대한 그래디언트 신호(gradient signal)를 보존하는 soft eligibility gates를 제안합니다. Waymo Open Motion Dataset에서 CNeVA는 벤치마크에서 경쟁력 있는 현실성을 달성하는 동시에, 순위가 더 높은 모방 모델(imitation models)에는 결여된 채널별 제어 가능성을 보여줍니다. 속도 및 가속도 기반의 조종(steering)은 정지(stall)로 인한 보상 해킹(reward hacking) 없이 단조로운(monotone) 반응을 생성합니다. 안전 제어 가능성은 soft eligibility의 도입으로 단조롭고 실질적인 수준을 유지합니다. 우리는 context-residual return 측정 방식 하에서 조종 가능한 지도 준수(map compliance)를 달성했습니다. 나아가, 우리의 실험은 보상 해킹 혼란(reward-hacking confounds)을 피하기 위해 조종 지표(steering metrics)를 물리적 타당성 가드레일(physical-plausibility guardrails)과 함께 읽어야 함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기