하나의 정책, 무한한 NPC: 확장 가능한 게임 에이전트를 위한 페르소나 추적 가능 공유 강화학습 (RL) 정책

300개의 페르소나를 가진 생명 시뮬레이션 (life-simulation) 벤치마크에서, pcsp는 우연 확률보다 최대 17배 높은 구성적 제로샷 (compositional zero-shot) 페르소나 식별 성능을 달성하였으며, Spearman rho 약 0.73의 의미론적-행동적 정렬 (semantic-behavioral alignment)을 보였고, LLM-as-policy 베이스라인보다 22배 빠른 추론 (inference) 속도를 기록했습니다. 생명 시뮬레이션 게임은 설계자가 작성한 자연어를 통해 제어 가능한 상태를 유지하면서도, 뚜렷한 개성을 가진 수백 명에서 수천 명의 비플레이어 캐릭터 (NPCs)가 일관되게 행동할 것을 요구합니다. 기존 방식들은 페르소나 일관성 (persona consistency), 제어 가능성 (controllability), 또는 실시간 추론 (real-time inference)과 같은 제약 조건에서 실패합니다. 우리는 자유 형식의 페르소나 설명에 대한 동결된 LLM 임베딩 (embeddings)을 조건으로 하는 단일 강화학습 (RL) 정책인 pcsp (Persona Conditioned Shared Policy)를 소개합니다. pcsp는 NPC당 1회 페르소나 인코딩 (persona encoding), 저차원 페르소나 투영 (low-rank persona projection), 신경망 페르소나 컨디셔닝 (neural persona conditioning), 그리고 PPO + InfoNCE 일관성 (consistency) + KL 다양성 (diversity) 학습 목적 함수를 결합합니다. 세 가지 실험 설정 전반에 걸친 절제 연구 (ablations) 결과, InfoNCE 궤적 일관성 (trajectory-consistency) 목적 함수가 핵심적인 역할을 한다는 것을 보여줍니다. 이를 제거하면 제로샷 페르소나 식별 능력이 우연 수준으로 붕괴됩니다. Melting Pot 2.4.0 기질 (substrates)에 대한 외부 검증을 통해, 우리의 방법이 다중 에이전트 전략 환경에서 페르소나 조건부 행동 발산 (persona-conditioned behavioral divergence)을 생성함을 확인했습니다. 우리는 홀드아웃 평가 (held-out evaluation)의 두 가지 의미인 구성적 제로샷 (compositional zero-shot)과 어휘 확장 (vocabulary-expansion) 홀드아웃을 구분합니다. 마지막으로, UE5 배포를 통해 64명의 에이전트 환경에서 엔진 내 페르소나 컨디셔닝 절제 연구를 재현하였으며, 낮은 실패율을 기록하며 서브 프레임 추론 (sub-frame inference) 프로필이 상용 게임 엔진에서도 유지됨을 보여주었습니다. 이러한 결과는 공유 RL 정책이 확장 가능하고 실시간이며, 페르소나 조건부인 NPC 제어를 지원할 수 있음을 증명합니다.

Insights

하나의 정책, 무한한 NPC: 확장 가능한 게임 에이전트를 위한 페르소나 추적 가능 공유 강화학습 (RL) 정책

요약

핵심 포인트

댓글

RTX 2분기 실적 발표 주요 내용

Infosys Q1 실적 발표 주요 내용

Sentry의 AI Agent Monitoring을 통해 5개 에이전트로 구성된 AWS 보안 스캐너의 토큰 폭발 현상을 포착하다

deco Studio에서 AI 에이전트 제어하기: 도구, 권한 및 비용

Infosys Q1 실적 발표 주요 내용

Sentry의 AI Agent Monitoring을 통해 5개 에이전트로 구성된 AWS 보안 스캐너의 토큰 폭발 현상을 포착하다

deco Studio에서 AI 에이전트 제어하기: 도구, 권한 및 비용