arXiv논문2026. 06. 23. 14:30

메모리 오염 (Memory Contagion): 에이전트 메모리를 통한 평가자 편향의 시공간적 전파

요약

LLM 에이전트의 메모리 시스템에서 평가자 편향이 시공간적으로 전파되는 '메모리 오염(Memory Contagion)' 현상을 규명한 연구입니다. 편향된 경험이 메모리에 통합될 때, 완벽한 통합 조건에서도 미래의 에이전트에게 편향이 전달되는 취약성을 입증했습니다.

핵심 포인트

평가자 편향이 에이전트 메모리를 통해 시공간적으로 전파됨을 발견
완벽한 메모리 통합(oracle 조건) 하에서도 편향 오염은 지속됨
편향 유형(길이 선호 vs 권위 편향)에 따라 통합의 영향이 상반됨
낮은 오염율(p=0.2)에서도 편향 전파가 감지되는 취약성 확인

대규모 언어 모델 (LLM) 에이전트는 장기적인 일관성을 유지하기 위해 메모리 시스템에 점점 더 많이 의존하고 있습니다. 최근 연구에 따르면 에이전트의 메모리는 지속적인 통합 (consolidation) 과정에서 저하됩니다. 그러나 기존 연구는 메모리가 편향되지 않은 경험으로부터 유도된다고 가정합니다. 본 연구에서 우리는 새로운 현상을 식별하고 공식화합니다: 바로 '메모리 오염 (Memory Contagion)'으로, 이는 에이전트 메모리를 통해 평가자 편향 (evaluator bias)이 시공간적으로 전파되는 현상을 의미합니다. 우리는 편향된 평가자에 의해 에이전트가 훈련되거나 가이드될 때, 그들의 경험이 편향된다는 것을 보여줍니다. 이러한 궤적 (trajectories)이 메모리에 저장되고 통합될 때, 통합이 완벽하게 이루어지더라도 (oracle 조건), 동일한 메모리 저장소에서 정보를 검색하는 미래의 에이전트에게 편향이 전파됩니다. 두 가지 편향 유형 (길이 선호도 (length preference), 권위 편향 (authority bias))과 네 가지 실험 단계에 걸쳐 우리는 다음을 입증합니다: (1) 메모리 오염은 완벽한 통합 (oracle 조건) 하에서도 발생하며, 이는 편향된 입력이 오염의 충분한 원인임을 증명합니다; (2) 통합은 편향 유형에 따라 상반된 효과를 가집니다. 즉, 길이 편향은 견고하게 약화시키는 반면 권위 편향은 예비적으로 증폭시키는 것으로 나타났으며 (단일 실행 추정치), 이는 편향 유형에 따른 상호작용이 존재함을 시사합니다; (3) 안전한 임계값은 관찰되지 않았습니다: 편향 전파는 오염율 (contamination rates)이 p=0.2만큼 낮은 수준에서도 감지되었습니다. 우리의 연구 결과는 현재의 에이전트 메모리 설계에 있는 치명적인 취약성을 드러내며, 시공간적 편향 전파를 측정하기 위한 공식적인 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

메모리 오염 (Memory Contagion): 에이전트 메모리를 통한 평가자 편향의 시공간적 전파

요약

핵심 포인트

댓글