Dev.to헤드라인2026. 06. 28. 14:28

선형 시간 어텐션이 에이전트에게 간극을 넘는 기억력을 부여하다

요약

에이전트의 장기 과제 수행을 위해 지속적인 세계 모델(Persistent world models)을 구축하는 최신 연구를 소개합니다. 선형 시간 어텐션과 그래프 메모리를 활용해 관찰 공백기에도 상태를 유지하며, 컴퓨팅 비용을 효율적으로 관리하는 기술적 방안을 다룹니다.

핵심 포인트

선형 시간 어텐션(Kairos)을 통한 O(n) 시간 복잡도 및 실시간 엣지 추론 구현
그래프 구조 에피소드 메모리(MRAgent)를 통한 프롬프트 토큰 수 81% 절감
시뮬레이션-실제 간의 드리프트 현상 해결 및 상태 보존 능력 강화
WRBench를 통한 세계 모델의 연속성 및 재관찰 정확도 평가 필요성 강조

지속적인 세계 모델(Persistent world models)은 에이전트의 센서가 작동하지 않을 때도 장기적인 과제(long-horizon tasks)를 일관성 있게 유지하는 역할을 합니다. 선형 시간 어텐션(Linear temporal attention)과 연관 그래프 메모리(associative graph memories)는 체화된 시스템(embodied systems)이 이러한 '암흑 간격(dark intervals)' 동안 상태를 기록하고 읽을 수 있는 방법을 제공하며, 오랫동안 시뮬레이션-실제(simulation-to-real) 파이프라인을 괴롭혀 온 드리프트(drift) 현상을 제거합니다.

이러한 발전 이전에는 세계 모델들이 카메라 추적 렌더러처럼 작동했습니다. 즉, 관찰되는 동안은 그럴듯한 프레임을 생성할 수 있었지만, 시점(viewpoint)이 바뀌는 순간 무너졌습니다. 23개 모델의 9,600개 비디오에 대한 분석 결과, 이미지 품질이나 모델 크기에 관계없이 재관찰된 상태가 거의 정확하지 않은 체계적인 “보존-접근-재관찰-일관성(preservation-access-re-observed-consistency)” 간극이 나타났습니다 [].

Kairos는 하이브리드 선형 시간 어텐션으로 이 간극을 폭발적인 컴퓨팅 증가 없이 메울 수 있음을 보여줍니다. 이의 게이티드 선형 어텐션(gated linear attention)은 O(n) 시간에 작동하여, 5초짜리 비디오를 NVIDIA A800에서 약 11.7초 만에 처리할 수 있게 합니다. 이는 이차 시간 복잡도(quadratic attention)로는 불가능했을 실시간 엣지 추론(real-time edge inference)입니다 [].

MRAgent는 그래프 구조의 에피소드 메모리(graph-structured episodic memory)가 동일한 지속성을 저렴하게 만들 수 있음을 보여줍니다. 추론을 메모리 접근에 통합함으로써, 이 모델은 “프롬프트 토큰 수를 118k로 줄여 A-Mem 같은 기준선 대비 크게 감소시켰다(632k)”고 보고했습니다. 이는 표현력을 유지하면서 실행 비용을 절감하는 81%의 감소율입니다 [].

이러한 새로운 구성 요소들이 만능 해결책(silver bullet)은 아닙니다. Kairos는 여전히 슬라이딩 윈도우(sliding-window)와 확장된 윈도우(dilated windows)에 의존하므로, 윈도우 길이를 초과하는 이벤트는 잘릴 수 있습니다. 또한 MRAgent의 재구성 루프(reconstruction loop)는 그래프 노드 수에 따라 증가하여, 진정으로 개방형인 생애 주기(open-ended lifespans)로의 확장성에 대한 우려를 제기합니다. 해당 논문들은 이러한 설계 트레이드오프(design trade-offs)를 논하지만, 완전히 무한한 지속성을 위한 특정 해결책을 주장하지는 않습니다.

만약 지속적인 상태(persistent state)가 누락된 조각이라면, 커뮤니티의 평가 스위트(evaluation suite) 또한 이를 반영해야 합니다. WRBench의 3단계 진단—개입(intervention), 연속성(continuity), 그리고 재관찰된 상태의 정확성(re-observed-state correctness)—은 모든 월드 모델(world-model) 롤아웃(rollout)의 기본 테스트가 되어야 하며, 개발자들이 시각적 충실도(visual fidelity)뿐만 아니라 아무도 보고 있지 않을 때도 세계를 계속 움직이게 만드는 능력을 측정하도록 강제해야 합니다.

참고 문헌

AI 자동 생성 콘텐츠

원문 바로가기

선형 시간 어텐션이 에이전트에게 간극을 넘는 기억력을 부여하다

요약

핵심 포인트

참고 문헌

댓글