arXiv논문2026. 06. 30. 11:04

제조된 확신: 메모리 공고화가 어떻게 소문을 확신에 찬 사실로 바꾸는가

요약

LLM 에이전트의 메모리 공고화 과정에서 유보적인 표현이 확신에 찬 단언으로 변하며 발생하는 보안 취약점을 분석합니다. 메모리에 저장된 문구의 확신도가 에이전트의 판단에 미치는 영향을 규명하고, 이를 방지하기 위한 설계적 교훈을 제시합니다.

핵심 포인트

메모리 재작성 과정에서 유보적 발언이 확신에 찬 사실로 변질됨
에이전트는 출처보다 문구의 확신도(confidence of phrasing)에 따라 반응함
단순한 태그나 지침으로는 메모리 오염 문제를 해결하기 어려움
단일 메모리 의존을 피하고 중복된 소스를 활용하는 설계가 필요함

LLM 에이전트(LLM agents)는 압축된 메모리(compressed memory)를 통해 단계와 세션 전반에 걸쳐 결론을 전달하며, 메모리 제품(예: mem0, LangMem)은 대화를 나중에 단계에서 신뢰하게 될 저장된 "사실(facts)"로 재작성합니다. 우리는 이러한 재작성이 확신을 제조(manufactures confidence)한다는 것을 보여줍니다. 우리가 구축한 에이전트 설정 전반에 걸쳐, 일상적이고 유보적인(hedged) 발언이 확신에 찬, 날짜가 명시된 단언(assertion)으로 변하며, 에이전트는 이를 검증된 사실처럼 준수하여 직면하는 모든 상위 권한 요청을 허용하게 됩니다. 공격자가 필요하지 않습니다. 한때는 사실이었으나 수정되지 않은 역할은 평면적인 사실로 저장되어 의도적인 주입(deliberate injection)처럼 행동하게 됩니다. 그런 다음 우리는 에이전트가 무엇에 반응하는지를 격리하여 분석했습니다. 그것은 출처가 아닙니다. 출처가 명시된 것, 명시되지 않은 것, 심지어 위조된 "기록 시스템(system of record)" 주장 모두 동일하게 허용됩니다. 그것은 문구의 확신(confidence of the phrasing)입니다. 유보적인 표현은 무시되지만, 평면적인 단언은 준수되며, 이는 특별한 키워드 없이도 유지됩니다. 하지만 모든 유보적 표현이 동일한 것은 아닙니다. 증거적 어조(evidential register)가 가장 적게 할인되며, "전해진 바에 따르면(reportedly)"은 대부분의 모델에서 평면적인 단언처럼 준수됩니다. 명백한 해결책들은 실패합니다. 수동적인 "미검증(unverified)" 태그는 무시되며, 능동적인 "이것을 신뢰하지 마시오"라는 지침은 심지어 올바른 메모리까지 에스컬레이션(escalates)시키므로, 이는 결정을 거부함으로써만 안전할 뿐입니다. 진정한 해결책은 저장소(store)에 있습니다. 문구를 업그레이드하기보다 잠정적인(tentative) 문구를 그대로 유지하십시오. 하지만 이는 위생(hygiene)의 문제이지, 단순히 확신에 찬 거짓말을 쓸 수 있는 공격자에 대한 방어책은 아닙니다. 배포 가능한 교훈은 더 좁고 건설적입니다. 단일한 하중 지지 메모리(load-bearing memory)가 위험 요소이며, 하나의 중복된 소스(redundant source)가 올바른 결정을 복구합니다. 우리는 하네스(harness)와 데모를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

제조된 확신: 메모리 공고화가 어떻게 소문을 확신에 찬 사실로 바꾸는가

요약

핵심 포인트

댓글