본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 11:07

심리학 기반 추론 및 역할 인식 정책 최적화를 통한 범용 역할 수행 에이전트 개선

요약

심리학 기반 사고 사슬(Psy-CoT)과 역할 인식 정책 최적화(RAPO)를 통해 범용 역할 수행 에이전트의 성능을 개선하는 연구를 제안합니다. 단순 모방을 넘어 상호작용 인지, 심리학적 공감, 논리적 구성을 통한 동적 사고를 유도합니다.

핵심 포인트

  • Psy-CoT 프레임워크를 통한 심리학 기반 사고 사슬 제안
  • RAPO를 활용하여 보상 모델 해킹 문제를 해결하고 캐릭터 충실도 향상
  • CoSER, CharacterBench 등 벤치마크를 통해 기존 방식 대비 우수성 입증
  • RAPO가 다양한 모델 규모에서 GRPO를 능가하는 성능 확인

자연어 프로필로부터 어떤 캐릭터든 충실하게 묘사하는 범용 역할 수행 에이전트(general-purpose role-playing agents)를 구축하는 것은 여전히 도전적인 과제로 남아 있습니다. 지배적인 패러다임인 지도 미세 조정(supervised fine-tuning)은 깊고 인간과 유사한 내부 사고 과정 없이 행동 모방만을 장려하며, 이는 분포 외 일반화(out-of-distribution generalization) 성능 저하를 초래합니다. 따라서 우리는 프로필로부터 표면적인 패턴을 단순히 모방하는 대신 모델이 extit{역동적으로 사고(thinks dynamically)}할 수 있도록, 응답 전 추론을 extit{상호작용 인지(Interaction Perception)}, extit{심리학적 공감(Psychological Empathy)}, extit{논리적 구성(Logical Construction)}이라는 세 가지 역할 특화 단계로 분해하는 심리학 기반 사고 사슬(psychology-grounded chain-of-thought) 프레임워크인 extbf{Psy-CoT}를 제안합니다. 구조화된 추론이 토대를 제공하지만, 그것만으로는 불충분합니다. 모델을 캐릭터 충실도(character fidelity)에 더욱 정렬시키기 위해서는 강화학습(reinforcement learning)이 필수적입니다. 그러나 우리는 LLM 기반 보상 모델(reward models) 하에서, 보상 모델을 해킹하는 일반적인 문구와 진정으로 역할에 특화된 문구가 동일한 그래디언트 신호(gradient signals)를 받는다는 것을 관찰했습니다. 이러한 해킹은 학습 과정에서 축적되어, 모델이 두 가지를 모두 동일하게 최적인 선택으로 취급하도록 오도합니다. 이를 해결하기 위해, 우리는 프로필-토큰 상호 정보량(profile--token mutual information)을 사용하여 그래디언트에 비대칭적으로 가중치를 부여하는 extbf{역할 인식 정책 최적화(Role-Aware Policy Optimization, RAPO)}를 제안합니다. 이는 양의 이점(positive advantage) 하에서는 역할 특화 토큰을 증폭시키고, 음의 이점(negative advantage) 하에서는 이를 감쇠시킵니다. CoSER, CharacterBench, CharacterEval에 대한 실험을 통해 Psy-CoT가 기존의 역할 수행 CoT 방법들보다 우수함을 입증하였으며, RAPO가 다양한 모델 규모에 걸쳐 GRPO를 지속적으로 능가함을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0