카멜레온의 한계: 대형 언어 모델에서의 페르소나 붕괴와 동질화 조사

대형 언어 모델 (LLMs) 기반 응용 프로그램, 예를 들어 다중 에이전트 시뮬레이션은 에이전트 간 인구 다양성을 요구합니다. 우리는 각기 다른 프로필이 할당된 에이전트들이 그럼에도 불구하고 좁은 행동 모드로 수렴하여 동질적인 시뮬레이션 인구를 생성하는 보편적인 실패 모드를 extit{페르소나 붕괴 (Persona Collapse)}라고 명명합니다. 페르소나 붕괴를 정량화하기 위해, 인구 집단이 페르소나 공간의 어느 정도를 차지하는지 (Coverage), 에이전트들이 얼마나 균일하게 분포하는지 (Uniformity), 그리고 결과적인 행동 패턴이 얼마나 풍부한지 (Complexity) 측정하는 프레임워크를 제안합니다. 성격 시뮬레이션 (BFI-44), 도덕적 추론, 자기소개 평가에서 10개의 LLM을 평가한 결과, 페르소나 붕괴는 두 축을 따라 관찰됩니다: (1) 차원 (Dimensions): 한 모델은 하나의 축에서는 다양하게 보일 수 있지만 다른 축에서는 구조적으로 퇴화할 수 있으며, (2) 도메인 (Domains): 동일한 모델이 성격에서는 가장 많이 붕괴되지만 도덕적 추론에서는 가장 다양할 수 있습니다. 또한 항목 수준의 진단은 행동 변이가 각 페르소나에 명시된 세밀한 개인 간 차이보다는 거친 인구 통계학적 고정관념을 따른다는 것을 보여줍니다. 역설적으로, extbf{가장 높은 개인별 페르소나 충실도 (per-persona fidelity)를 달성한 모델들이 가장 고정관념화된 인구를 생성합니다}. 우리는 LLM의 인구 수준 평가를 지원하기 위한 툴킷과 데이터를 공개합니다.

Insights

카멜레온의 한계: 대형 언어 모델에서의 페르소나 붕괴와 동질화 조사

요약

핵심 포인트

댓글

AI 에이전트가 '잘못된 도구'를 호출하는 이유는 설명문 때문이다 — 10분 만에 고치는 도구 기술 계약 입문

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교

AI에게 몇 번이나 수정을 요구했는지 측정하는 대화형 벤치마크 SWE-Together

AI 에이전트 지시 설계 완전 가이드 — Claude Code / Cursor / GitHub Copilot으로 성과를 내는 프롬프트

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교

AI에게 몇 번이나 수정을 요구했는지 측정하는 대화형 벤치마크 SWE-Together

AI 에이전트 지시 설계 완전 가이드 — Claude Code / Cursor / GitHub Copilot으로 성과를 내는 프롬프트