arXiv논문2026. 06. 30. 12:49

자기 적응형 LLM 에이전트의 평가자 주도 선호도 역학에 대한 진단 프레임워크 및 다중 평가자 감사

요약

LLM 평가자의 측정값이 시간이 지남에 따라 무효화되는 현상을 탐지하기 위한 진단 프레임워크(EPC)를 제안합니다. GPT-4o의 버전 업데이트에 따른 성능 드리프트와 자기 평가의 선호도 붕괴 문제를 정량적으로 분석했습니다.

핵심 포인트

LLM 평가자의 측정값은 모델 업데이트에 따라 불안정해질 수 있음
멀티모달 선호도 붕괴 지수(MPCI) 등 새로운 진단 프레임워크 도입
GPT-4o의 버전 변화(5월 vs 6월)가 평가 결과에 큰 영향을 미침을 입증
자기 평가(Self-evaluation) 방식은 선호도가 붕괴될 위험이 높음

독점적인 LLM 평가자(evaluators)의 측정값은 몇 주 내에 무효화될 수 있습니다. 우리는 한 가지 사례를 기록하고 이를 탐지하기 위한 진단 프레임워크를 제공합니다. 우리는 MPCI(Multimodal Preference Collapse Index, 멀티모달 선호도 붕괴 지수), 평가자 인덱스 결합 행렬(evaluator-indexed coupling matrix), 그리고 Jensen-Shannon divergence (JSD)로 구성된 EPC를 도입하며, 이를 8가지 실험 조건(N=112 메인 + N=10 어블레이션 = 122개의 고유 반복, 모두 보고됨)에 적용했습니다. 결합 계수(Coupling coefficients)는 조건별 평균에 대해 0.00에서 1.18 사이의 범위를 가집니다 (CV 약 0.9, n=8 조건). 4가지 조건은 강한 결합을 보여주며 (N=36; GPT-4o May, GPT-4o-mini, Qwen3.7-plus, DashScope 30r), 4가지 조건은 거의 0으로 붕괴합니다 (N=76; GPT-4o June, qwen-plus N=30, symmetric LR, DeepSeek self-eval). 5월에서 6월 사이의 GPT-4o 드리프트(drift) — 연구의 결론을 뒤집는 N=8 재복제 실험 — 는 가장 정보 가치가 높은 측정입니다. 자신의 불안정성을 탐지하는 진단 도구는 그것이 측정하도록 설계된 취약성(fragility)을 입증합니다. 자기 평가(Self-evaluation) (97% zero, JSD=0.003)는 지속적으로 붕괴하지만, 바닥 효과(floor effects)가 발생할 가능성이 있습니다. 출력 형식 혼란 변수(Output-format confound) 분석 결과, 전략별 집계 rho는 0.89이지만 인스턴스별 rho는 0.219 (p=0.093)로 나타났습니다; PCI는 선호도 수렴 지표(preference-convergence metric)로 보고되었습니다. 우리는 모든 데이터와 함께 EPC를 공개합니다. 이 발견은 단일 결합 크기가 아니라, 단일 스냅샷 평가 연구를 신뢰할 수 없게 만드는 버전 조건부 불안정성(version-conditional instability)의 패턴입니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기 적응형 LLM 에이전트의 평가자 주도 선호도 역학에 대한 진단 프레임워크 및 다중 평가자 감사

요약

핵심 포인트

댓글