본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 16:52

카멜레온의 한계: 대형 언어 모델에서의 페르소나 붕괴와 동질화 조사

요약

본 논문은 대형 언어 모델(LLMs) 기반 에이전트 시뮬레이션에서 발생하는 '페르소나 붕괴(Persona Collapse)'라는 일반적인 실패 모드를 정의하고 분석했습니다. 페르소나 붕괴란, 개별 프로필을 가진 에이전트들이 결국 유사한 행동 패턴으로 수렴하여 다양성이 부족한 인구를 생성하는 현상을 말합니다. 연구진은 Coverage, Uniformity, Complexity를 측정하는 프레임워크를 제안하고, 여러 모델 평가를 통해 페르소나 붕괴가 특정 차원이나 도메인에서 두드러지게 나타남을 입증했습니다.

핵심 포인트

  • LLM 에이전트 시뮬레이션의 주요 실패 모드는 '페르소나 붕괴'로 정의됨. 이는 개별 프로필에도 불구하고 에이전트들이 유사한 행동 패턴으로 수렴하는 현상임.
  • 페르소나 붕괴를 정량적으로 측정하기 위해 Coverage, Uniformity, Complexity라는 세 가지 프레임워크가 제안됨.
  • 모델의 성능은 일관적이지 않아, 특정 차원(Dimensions)이나 도메인(Domains)에서만 페르소나 붕괴가 관찰될 수 있음.
  • 흥미롭게도, 개별 페르소나 충실도가 높은 모델일수록 오히려 고정관념화된 인구를 생성하는 경향을 보임.

대형 언어 모델 (LLMs) 기반 응용 프로그램, 예를 들어 다중 에이전트 시뮬레이션은 에이전트 간 인구 다양성을 요구합니다. 우리는 각기 다른 프로필이 할당된 에이전트들이 그럼에도 불구하고 좁은 행동 모드로 수렴하여 동질적인 시뮬레이션 인구를 생성하는 보편적인 실패 모드를 extit{페르소나 붕괴 (Persona Collapse)}라고 명명합니다. 페르소나 붕괴를 정량화하기 위해, 인구 집단이 페르소나 공간의 어느 정도를 차지하는지 (Coverage), 에이전트들이 얼마나 균일하게 분포하는지 (Uniformity), 그리고 결과적인 행동 패턴이 얼마나 풍부한지 (Complexity) 측정하는 프레임워크를 제안합니다. 성격 시뮬레이션 (BFI-44), 도덕적 추론, 자기소개 평가에서 10개의 LLM을 평가한 결과, 페르소나 붕괴는 두 축을 따라 관찰됩니다: (1) 차원 (Dimensions): 한 모델은 하나의 축에서는 다양하게 보일 수 있지만 다른 축에서는 구조적으로 퇴화할 수 있으며, (2) 도메인 (Domains): 동일한 모델이 성격에서는 가장 많이 붕괴되지만 도덕적 추론에서는 가장 다양할 수 있습니다. 또한 항목 수준의 진단은 행동 변이가 각 페르소나에 명시된 세밀한 개인 간 차이보다는 거친 인구 통계학적 고정관념을 따른다는 것을 보여줍니다. 역설적으로, extbf{가장 높은 개인별 페르소나 충실도 (per-persona fidelity)를 달성한 모델들이 가장 고정관념화된 인구를 생성합니다}. 우리는 LLM의 인구 수준 평가를 지원하기 위한 툴킷과 데이터를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
7

댓글

0