arXiv논문2026. 05. 26. 13:23

ContextEcho: 긴 에이전트 기반 코딩 세션에서의 페르소나 드리프트(Persona Drift) 측정을 위한 벤치마크

요약

긴 에이전트 기반 코딩 세션에서 모델의 페르소나가 변하는 '페르소나 드리프트'를 측정하기 위한 벤치마크 ContextEcho를 소개합니다. 23개의 최첨단 모델을 분석하여 세션 압축이 드리프트를 해결하지 못하며, 이것이 도구 사용 및 채팅 품질에 미치는 영향을 규명합니다.

핵심 포인트

페르소나 드리프트 측정용 벤치마크 ContextEcho 제안
긴 코딩 세션 중 모델의 정체성 변화 현상 확인
세션 내 압축(Compaction)이 드리프트 방지에 효과적이지 않음
드리프트가 출력 포맷팅 및 길이에 미치는 부정적 영향 분석
모델 배포 전 페르소나 일관성을 감사할 수 있는 프레임워크 제공

최첨단 언어 모델(Frontier language model)이 인지하고 있는 "도움이 되는 프로그래밍 어시스턴트" 페르소나는 실제 프로덕션 제품이 실행되는 배포 환경의 긴 에이전트 기반 코딩(Agentic-coding) 세션 동안 유지되지 않습니다. 몇 시간 동안 도구 사용(Tool-using) 디버깅을 거친 후, 초기에는 선호도를 유보하던("저는 선호도가 없습니다") 모델이 선호도를 주장하기 시작하며("Python은 피드백 루프가 즉각적입니다..."), 이는 배포자 평가(Deployer evaluations)에서 놓칠 수 있는 사용자 가시적 드리프트(Drift)를 드러냅니다. 기존의 페르소나 안정성 연구는 짧은 대화에 집중하며 변화가 거의 없다고 보고하고 있어, 수천 번의 도구 사용 턴(Turn), 압축(Compaction), 그리고 몇 시간씩 이어지는 세션과 같은 실제 코드 생성 환경은 대부분 특성화되지 않은 상태로 남아 있습니다.

우리는 배포 규모에서 페르소나 드리프트(Persona drift)를 측정하기 위한 벤치마크이자 재사용 가능한 하네스(Harness)인 ContextEcho를 소개합니다. 이는 25개의 탐사(Probe)로 구성된 정체성 제품군(Identity suite), 메인 세션을 방해하지 않고 대화 상태를 분기(Fork)하는 스냅샷 후 탐사(Snapshot-then-probe) 프로토콜, 상호 보완적인 판단 기반(Judged) 및 비판단 기반(Judge-free) 측정 표면, 그리고 3,746~9,716회에 달하는 턴을 포함하는 세 개의 익명화된 Claude Code 세션을 결합합니다. 23개의 최첨단 모델(Frontier models)을 대상으로 ContextEcho를 적용한 결과, 페르소나 드리프트는 특정 모델 제품군(Family-specific)에 국한된 것이 아니라 조직 전반에 걸쳐 일반적이라는 점, 세션 내 압축(In-session compaction)이 이를 안정적으로 초기화하지 못한다는 점, 그리고 단일 샷 앵커(Single-shot anchor)가 측정된 대상 전반에 걸쳐 학습된 레지스터(Register)를 복구한다는 점을 보여줍니다.

또한 이는 모드(Mode)에 따른 하위 효과(Downstream effects)를 드러냅니다. 드리프트가 도구 사용(Tool-using)의 지속을 용이하게 할 수는 있지만, 도구 미사용 채팅(Tool-free chat)에서는 포맷팅 계약(Formatting contracts)을 깨뜨리고 출력 길이를 늘립니다. 종합적으로 ContextEcho는 연구자와 배포자에게 모델이 출시될 때의 페르소나가 재학습 없이도 채팅 완료(Chat-completions) API 대상 전반에서 세션 종료 시 사용자가 마주하는 페르소나와 일치하는지 감사할 수 있는 오픈 소스 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ContextEcho: 긴 에이전트 기반 코딩 세션에서의 페르소나 드리프트(Persona Drift) 측정을 위한 벤치마크

요약

핵심 포인트

댓글