본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 11:21

하나의 정책, 무한한 NPC: 확장 가능한 게임 에이전트를 위한 페르소나 추적 가능 공유 강화학습 (RL) 정책

요약

pcsp는 단일 강화학습(RL) 정책으로 수백 명의 NPC에게 고유한 페르소나를 부여하는 기술입니다. LLM 기반 방식보다 22배 빠른 추론 속도를 제공하며, UE5 환경에서도 실시간 성능을 입증했습니다.

핵심 포인트

  • 단일 RL 정책으로 수천 명의 개성 있는 NPC 제어 가능
  • LLM 기반 베이스라인 대비 22배 빠른 추론 속도 달성
  • InfoNCE 목적 함수를 통한 높은 페르소나 일관성 확보
  • UE5 배포를 통해 상용 게임 엔진에서의 실시간성 검증

300개의 페르소나를 가진 생명 시뮬레이션 (life-simulation) 벤치마크에서, pcsp는 우연 확률보다 최대 17배 높은 구성적 제로샷 (compositional zero-shot) 페르소나 식별 성능을 달성하였으며, Spearman rho 약 0.73의 의미론적-행동적 정렬 (semantic-behavioral alignment)을 보였고, LLM-as-policy 베이스라인보다 22배 빠른 추론 (inference) 속도를 기록했습니다. 생명 시뮬레이션 게임은 설계자가 작성한 자연어를 통해 제어 가능한 상태를 유지하면서도, 뚜렷한 개성을 가진 수백 명에서 수천 명의 비플레이어 캐릭터 (NPCs)가 일관되게 행동할 것을 요구합니다. 기존 방식들은 페르소나 일관성 (persona consistency), 제어 가능성 (controllability), 또는 실시간 추론 (real-time inference)과 같은 제약 조건에서 실패합니다. 우리는 자유 형식의 페르소나 설명에 대한 동결된 LLM 임베딩 (embeddings)을 조건으로 하는 단일 강화학습 (RL) 정책인 pcsp (Persona Conditioned Shared Policy)를 소개합니다. pcsp는 NPC당 1회 페르소나 인코딩 (persona encoding), 저차원 페르소나 투영 (low-rank persona projection), 신경망 페르소나 컨디셔닝 (neural persona conditioning), 그리고 PPO + InfoNCE 일관성 (consistency) + KL 다양성 (diversity) 학습 목적 함수를 결합합니다. 세 가지 실험 설정 전반에 걸친 절제 연구 (ablations) 결과, InfoNCE 궤적 일관성 (trajectory-consistency) 목적 함수가 핵심적인 역할을 한다는 것을 보여줍니다. 이를 제거하면 제로샷 페르소나 식별 능력이 우연 수준으로 붕괴됩니다. Melting Pot 2.4.0 기질 (substrates)에 대한 외부 검증을 통해, 우리의 방법이 다중 에이전트 전략 환경에서 페르소나 조건부 행동 발산 (persona-conditioned behavioral divergence)을 생성함을 확인했습니다. 우리는 홀드아웃 평가 (held-out evaluation)의 두 가지 의미인 구성적 제로샷 (compositional zero-shot)과 어휘 확장 (vocabulary-expansion) 홀드아웃을 구분합니다. 마지막으로, UE5 배포를 통해 64명의 에이전트 환경에서 엔진 내 페르소나 컨디셔닝 절제 연구를 재현하였으며, 낮은 실패율을 기록하며 서브 프레임 추론 (sub-frame inference) 프로필이 상용 게임 엔진에서도 유지됨을 보여주었습니다. 이러한 결과는 공유 RL 정책이 확장 가능하고 실시간이며, 페르소나 조건부인 NPC 제어를 지원할 수 있음을 증명합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0