arXiv논문2026. 06. 25. 11:24

재생 평가(Reclaim Evaluation): 손실된 메모리는 없는 것보다 나쁘다

요약

언어 모델의 메모리 손실이 잘못된 결론을 확신하게 만드는 '취약한 메모리(brittle memory)' 현상을 분석합니다. 근거를 유지하고 결론을 버리는 '근거 우선 정책(source-first policy)'을 통해 메모리 압축 시에도 교정 가능성을 회복할 수 있음을 입증했습니다.

핵심 포인트

잘못된 메모리는 모델이 틀린 답변을 확신하게 만드는 원인이 됨
재생 평가(Reclaim Evaluation)를 통해 메모리 교정 가능성을 측정
근거 우선 정책은 압축된 메모리 내에서 정답 회복력을 높임
근거 누락은 하류 단계의 오류를 연쇄적으로 심화시킴

언어 모델(Language Model)의 메모리는 아예 없는 것보다 더 나쁠 수 있습니다. 잘못된 결론은 유지하면서 그 결론에 도달하기 위한 과정(work)을 누락시킨 메모리를 모델에게 제공하면, 모델은 그 오래된 값을 확신에 찬 답변으로 내뱉습니다. 반면, 동일한 모델에게 빈 메모리를 제공하면 답변을 유보합니다. 7개의 모델을 대상으로 테스트했을 때 이 경향은 단 한 번도 역전되지 않았으며, 이는 어떤 모델도 깨뜨리지 못한 명확한 종료 조건(kill condition)입니다. 우리는 이를 취약한 메모리(brittle memory)라고 부릅니다. 이는 그 아래에 깔린 즉각적인 정보의 문제가 아니라 행동(behavioral)의 문제입니다. 그 규모(magnitude)는 성향과 작업에 따라 달라질 뿐, 방향성은 동일합니다. 우리는 이를 재생 평가(reclaim evaluation)로 측정합니다: 고정된 예산(budget) 내에서 편향된 상호작용(drifted interaction)을 압축한 후, 교정(correction)을 통해 알려진 정답을 회복할 수 있는지 테스트하며, 별도의 판사(judge) 없이 정답(ground truth)과 비교하여 점수를 매깁니다. 교정 가능성(Correctability)은 모델의 능력(capability)이 아니라, 답변을 결정짓는 근거(source)가 살아남느냐에 따라 병목 현상이 발생합니다. '근거 우선 정책(source-first policy)'(재계산 가능한 근거는 유지하고, 재유도 가능한 결론은 버림)이라는 한 줄의 정책은, 해당 근거가 압축 가능하고 식별 가능한 경우 동일한 예산 내에서 교정 가능성을 회복시킵니다. 길이를 맞춘 대조군(length-matched control) 실험을 통해 추가된 텍스트가 원인이 아님을 입증했습니다. 수작업으로 만든 오라클(oracle)은 1.00에 도달하며, 단일 프롬프트로 배포 가능한 버전은 0.49~0.88를 회복합니다. 이 문제는 연쇄적으로 심화됩니다: 메모리 루프(memory loop)를 통해 연결될 경우, 단 하나의 근거 누락 오류가 하류 단계(downstream steps)의 점점 더 넓은 범위를 오염시키고 교정 불가능한 상태로 남게 되는 반면, 근거 우선 방식은 제한된 예산 범위 내에서 유지됩니다. 이러한 한계와 해결책은 세 가지 배포된 메모리 시스템과 실제 대화(MultiWOZ)에서도 재현되었으며, 근거가 더 이상 들어갈 수 없을 만큼 예산을 초과하면 노트에 완전성(completeness)을 기록하지 않는 한 해결책은 조용히 실패합니다. 이것은 벤치마크가 아니라 메커니즘에 대한 통제된 연구입니다: 판사가 필요 없는 정확한 점수 산정, 예산이 일치하는 대조군, 그리고 거짓 결과가 나오도록 설계된 검증기(validators)를 포함합니다. 우리는 하네스(harness), 조건, 그리고 검증기를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

재생 평가(Reclaim Evaluation): 손실된 메모리는 없는 것보다 나쁘다

요약

핵심 포인트

댓글