본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 11:36

Agentopia: 에이전트 사회에서의 장기적 삶의 시뮬레이션 및 학습

요약

Agentopia는 100명의 LLM 에이전트가 10년 동안 자율적으로 상호작용하는 장기 사회 시뮬레이션 프레임워크입니다. 에이전트의 웰빙을 반영한 '삶의 보상'을 통해 LLM을 학습시켜 사회적 지능과 역할 수행 능력을 향상시키는 연구를 다룹니다.

핵심 포인트

  • 10년 단위의 장기적 사회 시뮬레이션 프레임워크 Agentopia 제시
  • 삶의 보상(life reward) 개념을 도입하여 LLM 학습에 활용
  • 거부 샘플링을 통해 에이전트의 사회적 지능 및 웰빙 향상
  • 역할 수행(role-playing) 벤치마크에서 15.6% 성능 향상 달성

인간은 사회적 삶으로부터 학습합니다. LLM (Large Language Model) 기반 에이전트를 통해 이 과정을 시뮬레이션하는 것은 유망한 연구 방향이며, 다음과 같은 자연스러운 질문을 던집니다: LLM이 이러한 시뮬레이션된 사회적 경험으로부터 학습하여 인간의 행동을 더 잘 이해하고 복제할 수 있는가? 그러나 이전의 에이전트 사회 시뮬레이션은 일반적으로 며칠 단위의 규모로 운영되어, 사회적 상호작용의 깊이와 장기적인 성장을 제한했습니다. 본 논문에서 우리는 에이전트 사회에서의 장기적 삶의 시뮬레이션과 LLM 학습을 연구하며, 두 가지 목표를 가집니다: (1) 평생 시뮬레이션으로부터 나타나는 사회적 행동을 조사하는 것, 그리고 (2) 수년간의 시뮬레이션된 사회적 경험을 통해 LLM에서 의인화된 능력, 특히 사회적 삶에서의 지능을 개발하는 것입니다. 구체적으로, 우리는 100명의 에이전트가 10년의 시뮬레이션 기간 동안 자율적으로 개인적 성장을 추구하고, 사회적 관계를 발전시키며, 자신의 필요와 목표를 달성하는 다중 에이전트 사회에서의 장기적 삶의 시뮬레이션을 위한 포괄적인 프레임워크인 Agentopia를 제시합니다. 우리는 인간의 웰빙 (well-being)을 반영하기 위해 삶의 보상 (life reward)을 정의하며, 이 보상을 활용하여 거부 샘플링 (rejection sampling)을 통해 LLM을 학습시킵니다. 광범위한 실험을 통해 에이전트들이 풍부한 창발적 사회 행동을 보인다는 것을 입증했습니다. 나아가, 삶의 보상 학습은 기반이 되는 LLM을 효과적으로 향상시키며, 이는 시뮬레이션 내 에이전트의 웰빙 향상으로 이어지고, 다운스트림 역할 수행 (role-playing) 벤치마크에서 +15.6%의 성능 향상으로 일반화됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0