TriggerBench: 대규모 언어 모델(LLMs)의 미래 기억(Prospective Memory) 조사
요약
LLM의 미래 기억(Prospective Memory) 능력을 평가하기 위한 새로운 벤치마크인 TriggerBench를 소개합니다. 기존의 회고적 기억 중심 평가에서 벗어나, 모델이 자발적으로 제약 사항을 회상하고 실행하는 능력을 5가지 차원에서 정밀하게 측정합니다.
핵심 포인트
- TriggerBench는 LLM의 미래 기억(PM) 능력을 측정하는 포괄적 벤치마크임
- PM은 회고적 기억(RM)보다 훨씬 어렵고 문맥 길이에 따라 성능이 급격히 저하됨
- PM 성능은 모델의 여유 추론 용량(spare reasoning capacity)을 나타내는 지표로 활용 가능함
- 추론 능력이 향상될수록 PM이 개선되지만, 특정 휴리스틱에 과적합될 위험이 있음
대규모 언어 모델(LLMs)이 긴 상호작용에 점점 더 많이 배치되고 있지만, 기존의 평가들은 주로 명시적인 질의를 통한 회고적 기억(Retrospective Memory, RM)에 집중되어 있습니다. 직접적인 프롬프트 없이 잠재된 제약 사항을 자발적으로 회상하고 실행하는 핵심 능력인 미래 기억(Prospective Memory, PM)은 여전히 거의 평가되지 않은 상태로 남아 있습니다. 우리는 일상적인 어시스턴트와 전문적인 워크플로우 전반에 걸쳐 5가지 차원을 아우르는 포괄적인 PM 벤치마크인 TriggerBench를 소개합니다. TriggerBench는 시나리오를 일치하는 RM 대조군, 대조적인 긍정적/부정적 변형, 그리고 과부하된 트리거(triggers)와 결합하여, 단일 프로토콜 하에서 선제적 회상(proactive recall), 오경보율(false-alarm rate), 그리고 주의력 강건성(attentional robustness)에 대한 미세한 측정을 가능하게 합니다. 우리의 평가를 통해 세 가지 주요 발견을 도출했습니다. (i) PM은 정밀도-재현율 트레이드오프(precision-recall trade-off)와 주의력 취약성(attentional fragility)을 보입니다. 추론 능력이 향상되면 선제적 회상이 크게 개선되지만, 모델이 "항상 상기시키기"라는 휴리스틱(heuristic)에 과적합(overfit)될 수 있습니다. 또한, PM 정확도는 암시적 제약 조건이나 동시 사용자 요청으로 인해 트리거가 과부하된 상황에서 실질적으로 저하되며, 이는 강건한 PM이 여전히 해결해야 할 과제임을 나타냅니다. (ii) PM은 RM보다 눈에 띄게 어렵습니다. 동일한 문맥에서 RM은 최대 100K 토큰까지 거의 포화 상태에 도달하는 반면, PM은 문맥 길이가 확장됨에 따라 급격히 저하됩니다. (iii) PM은 여유 추론 용량(spare reasoning capacity)을 측정하는 행동 프로브(behavioral probe) 역할을 할 수 있습니다. PM 시나리오를 AIME-2025 수학 문제와 결합했을 때, 성공적인 궤적은 동일한 문맥 길이에서 실패한 궤적보다 더 높은 PM 정확도를 보였으며, 이는 PM이 토큰 수로는 가려지는 여유 추론 예산(spare reasoning budget)을 추적함을 보여줍니다. 프로젝트 페이지: https://github.com/KristenZHANG/TriggerBench-Official.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기