AMEL: LLM 판단에 미치는 누적 메시지 효과
요약
LLM이 이전 대화 기록의 극성에 따라 후속 판단이 편향되는 '누적 메시지 효과(AMEL)'를 규명한 연구입니다. OpenAI, Anthropic, Google 등 주요 모델들이 대화의 지배적인 분위기에 따라 판단이 이동하며, 특히 부정적 기록에 더 민감하게 반응함을 확인했습니다.
핵심 포인트
- 이전 대화의 극성이 후속 LLM 판단에 편향을 유도함
- 부정적 기록이 긍정적 기록보다 1.62배 더 강한 편향을 유발
- 모델 규모를 키워도 AMEL 현상은 해결되지 않음
- 평가 파이프라인 구축 시 항목당 새로운 컨텍스트 사용 권장
대규모 언어 모델 (Large language models, LLMs)은 코드를 검토하거나, 콘텐츠를 중재하거나, 출력을 점수화하기 위한 자동 평가자로 일상적으로 사용되며, 종종 많은 항목이 하나의 대화(conversation)를 통해 처리됩니다. 우리는 이전 대화 기록의 극성 (polarity)이 후속 판단에 편향을 일으키는지 질문하며, 이 효과를 LLM 판단에 미치는 누적 메시지 효과 (Accumulated Message Effects on LLM Judgments, AMEL)라고 부릅니다. 4개의 제공업체(OpenAI, Anthropic, Google 및 4개의 오픈 소스 모델)의 11개 모델에 대한 75,898회의 API 호출을 통해, 우리는 동일한 테스트 항목을 단독으로 제시하거나, 주로 긍정적 또는 부정적인 평가로 포화된 기록 뒤에 제시했습니다. 모델들은 대화의 지배적인 극성 쪽으로 이동합니다 (d = -0.17, p < 10^-46). 이 효과는 모델이 기본적으로 진정으로 불확실한 항목에 집중됩니다 (기본값이 결정론적일 때 d = -0.15인 것에 비해, 고엔트로피 (high-entropy) 항목의 경우 d = -0.34). 편향은 컨텍스트 길이 (context length)에 따라 증가하지 않습니다: 5개의 이전 턴 (prior turns)과 50개의 턴은 동일한 이동을 생성합니다 (Spearman |r| < 0.01; OLS slope p = 0.80). 그리고 부정성 비대칭 (negativity asymmetry)이 존재합니다: 항목별로 쌍을 지었을 때, 부정적인 기록은 긍정적인 기록보다 1.62배 더 많은 편향을 유도합니다 (t = 13.46, p < 10^-39, n = 2,481). 모델 규모를 키우는 것(Scaling)은 도움이 되지만 문제를 해결하지는 못합니다 (Anthropic: Haiku -0.22에서 Opus -0.17로; OpenAI: Nano -0.34에서 GPT-5.2 -0.17로). 세 가지 후속 연구를 통해 메커니즘을 좁혀 나갑니다. 토큰 확률 분포 (token probability distribution)는 임계값(threshold)에서가 아니라 연속적으로 이동합니다. 부정성 비대칭은 토큰 수준과 의미론적 구성 요소를 모두 가지고 있지만, 그 균형을 귀속시키는 것은 우리의 샘플 크기에서 탐색적인 단계입니다. 위치는 중요하지 않습니다: 50개의 턴 기록 중 어디에 있든 편향된 5개의 턴은 동일한 이동을 생성합니다. 평가 파이프라인 (evaluation pipelines)을 위한 가장 간단한 해결책은 항목당 새로운 컨텍스트 (fresh context)를 사용하는 것입니다. 배치 처리 (batching)가 불가피할 때는 기록의 균형을 맞추는 것이 도움이 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기