에이전트가 스스로 문맥을 요약할 타이밍을 결정하는 SelfCompact

장시간 작동하는 AI 에이전트를 한 번이라도 운용한 적이 있다면, 이 벽에 부딪혀 보았을 것이다. 도구 호출(Tool calling)과 사고 로그(Thought log)가 끝없이 쌓여 결국 컨텍스트 윈도우(Context window)가 넘쳐버린다. 수십 단계 전에 한 번 보았던 디렉토리 목록이나, 이미 해결된 서브 과제의 디버그 출력(Debug output)이 계속해서 문맥에 자리 잡고 공간을 차지한다.

현장에서의 전형적인 대처법은 "요약(Compaction)"이다. Claude Code의 자동 컴팩션(Automatic compaction)처럼, 이력이 일정량에 도달하거나 혹은 몇 단계마다 지금까지의 경과를 짧은 요약으로 접어서 대체하는 방식이다. 하지만 이 "일정한 간격으로 접는다"라는 발상 자체에 함정이 있다. Johns Hopkins 대학교 연구팀이 6월 22일에 공개한 논문 Self-Compacting Language Model Agents는 바로 그 지점을 지적한다.

고정 간격의 요약은 요약해야 할 순간을 놓친다. 긴 수식 변형의 도중(mid-derivation)이나 정답을 찾지 못해 시행착오를 겪고 있는 와중에 스케줄이 돌아오면, 아직 버려서는 안 될 작업 메모리(Working memory)를 지워버린다. 반대로 서브 과제가 해결되어 명확히 다음 단계로 넘어가도 좋은 국면임에도, 간격이 돌아올 때까지 비대해진 이력을 계속 끌고 간다. 요컨대, 타이밍의 좋고 나쁨을 캘린더가 결정하고 있을 뿐, 작업의 내용을 보고 있지 않은 것이다.

저자들은 여기에 "메타인지의 격차(Meta-cognitive gap)"가 있다고 지적한다. 아무런 힌트를 주지 않으면 모델은 자신의 문맥이 열화되어 요약이 필요해진 순간을 스스로 확실히 판단할 수 없다. 내버려 두면 접어야 할 때 접지 않는다. 하지만 판단의 척도만 전달해 준다면 이야기는 달라진다는 것이 이 논문의 핵심이다.

제안 기법인 SelfCompact는 추가 학습을 전혀 수행하지 않는다. 추론(Inference) 시에 두 가지 부품을 조합할 뿐이다.

하나는 모델이 스스로 호출할 수 있는 컴팩션용 도구(Compaction tool). 다른 하나는 언제 발화시키고 언제 참을지를 나타내는 짧은 **루브릭(Rubric, 판단 기준)**이다. 논문에 따르면, 발화(COMPRESS)하는 것은 "서브 과제가 해결되었을 때" 또는 "궤적이 수렴하고 있을 때"라고 판단했을 때뿐이다. 반대로 "막혀 있을 때"나 "변형 도중"일 때는 억제하여, 필요한 작업 메모리를 너무 이른 타이밍에 지우지 않도록 한다.

비유를 하나 들자면 책상 정리와 비슷하다. 정기 청소 업체가 시간이 되면 문답무용으로 서류를 파일에 철해버리는 것이 고정 간격 방식이다. 반면 SelfCompact는 작업 중인 본인이 "이 건은 끝났다"라고 느낀 순간에만 자신의 판단으로 책상 위를 정리한다. 손을 멈추고 고민하고 있는 중에는 정리하지 않는다.

접는 방식도 솔직하다. 요약이 발화하면 에이전트는 그때까지의 생생한 궤적 $(x, y_{1:t})$을 그대로 이어받는 것이 아니라, 요약된 서문 $(x, ilde{y})$으로부터 다음을 진행한다. 즉, 긴 이력을 짧은 요약으로 대체하여 그 지점부터 재개하는 것이다. 메커니즘 자체는 기존의 컴팩션과 같지만, 새로운 점은 "대체하는 내용"이 아니라 "대체하는 순간의 선택 방식"에 있다. 이 부분이 기존 방식과의 차이점이다.

검증은 경시대회 수학(IMO-Answerbench 등)과 에이전트형 검색(BrowseComp-Plus 등)을 아우르는 6개의 벤치마크, 7개의 모델을 대상으로 수행되었다. 수치는 대체로 다음과 같다.

비교 대상	정확도	토큰 비용
요약 없음(no-summarization)	기준	기준
...

읽는 법은 다음과 같다. 우선 요약을 현명하게 끼워 넣는 것 자체가 정확도를 높인다(요약 없음 대비 수학은 최대 18.1점, 검색은 59점 상승). 긴 문맥을 안고 있을수록 모델은 주의(Attention)가 분산되어 성능이 떨어지기 때문이다. 그 위에서 SelfCompact의 진정한 승부수는 고정 간격 방식과 대등하거나 그 이상의 정확도를, **문제당 37할이나 저렴한 토큰 비용으로** 낸다는 점에 있다. 불필요한 요약을 하지 않고 필요한 요약만 수행하기 때문에 당연히 비용이 낮아진다.

SelfCompact matches or exceeds fixed-interval summarization at a fraction of the token cost.

(SelfCompact는 고정 간격의 요약에, 아주 적은 토큰 비용으로 필적하거나 혹은 능가한다)

더 자세한 수치나 모델별 내역은 Hugging Face의 논문 페이지와 본문 PDF를 참조하기 바란다.

이 논문의 가치는 화려한 신규 모델에 있는 것이 아니라, '이미 존재하는 에이전트에 오늘부터 적용할 수 있다'는 점에 있습니다. 추가 학습이 필요 없고, 도구와 몇 줄의 루브릭만으로 작동하기 때문에, 자체 에이전트 루프에 컴팩션(compaction)용 도구를 하나 추가하고 발화 조건 프롬프트를 '하위 과제가 완료되었거나 수렴했을 때만 접고, 막히거나 도출하는 중간 단계에서는 접지 마라'라고 작성하는 것만으로도 그 사상을 재현할 수 있습니다. 이 논문은 그 프롬프트 설계와 스케줄링의 적절성을 실험을 통해 입증해 준 형태입니다.

반대로 말하면, 많은 에이전트 기반 시스템들이 채택하고 있는 '토큰 수 임계치에 따른 자동 컴팩션'이라는 단순한 설계에는 여전히 개선할 여지가 있다는 의미이기도 합니다. 이 임계치는 작업의 의미를 보고 있지 않습니다. 접을지 말지에 대한 판단을 시계나 토큰 카운터가 아닌 모델 자체의 상황 인식에 맡기는 것입니다. 이러한 발상은 컨텍스트 엔지니어링의 다음 표준(standard)이 되어갈 것 같습니다.

다만 한 가지 유보할 점이 있습니다. 루브릭이 기능하려면, 모델이 '지금 이 하위 과제가 해결되었는지'를 어느 정도 정확하게 스스로 신고할 수 있는 능력이 전제되어야 합니다. 논문의 '메타인지의 격차(meta-cognitive gap)'라는 지적은 역설적으로 이러한 자기 보고가 만능이 아님을 보여줍니다. 작은 모델이나 상황 파악이 약한 태스크에서 얼마나 효과적인지는 자신의 환경에서 한 번 측정해 본 후에 실전에 투입하고 싶습니다. 그럼에도 불구하고, 요약 빈도를 하이퍼파라미터로 직접 결정하던 사람들에게는 충분히 시도해 볼 가치가 있는 방법입니다.

Insights

에이전트가 스스로 문맥을 요약할 타이밍을 결정하는 SelfCompact

요약

핵심 포인트

댓글

ETF 리그 테이블: Direxion 유입액 총 2억 3,700만 달러

제가 대신 테스트해 본 5가지 AI 에이전트 '페르소나' — 실제로 효과가 있는 것은 무엇일까요?

AB-100 Agentic AI Business Solutions Architect 시험: AI 솔루션 아키텍트를 위한 새로운

에이전트 증거 수준 (AEL): AI 에이전트가 남기는 증거의 등급 매기기

제가 대신 테스트해 본 5가지 AI 에이전트 '페르소나' — 실제로 효과가 있는 것은 무엇일까요?

AB-100 Agentic AI Business Solutions Architect 시험: AI 솔루션 아키텍트를 위한 새로운

에이전트 증거 수준 (AEL): AI 에이전트가 남기는 증거의 등급 매기기