행동 잠재 변수(Behavior Latents)를 이용한 제어 가능한 시뮬레이션 에이전트

현실적인 교통 시뮬레이션에는 기록된 행동을 모방하면서도 해석 가능한 축을 따라 조종할 수 있는 에이전트가 필요합니다. 이러한 제어 가능성(Controllability)을 통해 엔지니어는 변수를 격리하고, 특정 엣지 케이스(edge cases)를 재현하며, 실제 세계의 위험 없이 자율 주행 시스템을 테스트할 수 있습니다. 우리는 Controllable Neural Variational Agents (CNeVA)를 소개합니다. 이는 closed-form conjugate variational update를 통해 채널별 할인된 수익(per-channel discounted returns)으로부터 에이전트별 가우시안 행동 잠재 변수(Gaussian behavior latent)를 추론하도록 학습하며, classifier-free guidance를 위한 혼합 채널 마스크 커리큘럼(mixed channel-mask curriculum)으로 학습된 rectified-flow 궤적 생성기(trajectory generator)를 조건화하는 제어 가능한 시뮬레이션 에이전트 프레임워크입니다. 보상 신호(reward signals)의 부족 문제를 해결하기 위해, 우리는 하드 이진 임계값(hard binary thresholds)을 부드러운 지수적 감쇠(smooth exponential decay)로 대체하여 임계값 근처의 에이전트에 대한 그래디언트 신호(gradient signal)를 보존하는 soft eligibility gates를 제안합니다. Waymo Open Motion Dataset에서 CNeVA는 벤치마크에서 경쟁력 있는 현실성을 달성하는 동시에, 순위가 더 높은 모방 모델(imitation models)에는 결여된 채널별 제어 가능성을 보여줍니다. 속도 및 가속도 기반의 조종(steering)은 정지(stall)로 인한 보상 해킹(reward hacking) 없이 단조로운(monotone) 반응을 생성합니다. 안전 제어 가능성은 soft eligibility의 도입으로 단조롭고 실질적인 수준을 유지합니다. 우리는 context-residual return 측정 방식 하에서 조종 가능한 지도 준수(map compliance)를 달성했습니다. 나아가, 우리의 실험은 보상 해킹 혼란(reward-hacking confounds)을 피하기 위해 조종 지표(steering metrics)를 물리적 타당성 가드레일(physical-plausibility guardrails)과 함께 읽어야 함을 입증합니다.

Insights

행동 잠재 변수(Behavior Latents)를 이용한 제어 가능한 시뮬레이션 에이전트

요약

핵심 포인트

댓글

에이전트, 스킬, 플러그인 및 MCP 통합을 다루는 OpenCode 가이드

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트