관측 이력을 에이전트 메모리로 압축하기: Transformer를 Recurrent Transformer로 증류하기
요약
Transformer의 긴 시퀀스 처리 시 발생하는 높은 계산 비용 문제를 해결하기 위해, 전체 이력을 사용하는 Transformer의 압축 전략을 Recurrent Transformer로 전달하는 증류(distillation) 기법을 제안합니다. 이를 통해 고정된 메모리 크기 내에서도 전체 이력을 사용하는 모델에 근접하는 성능을 구현합니다.
핵심 포인트
- Transformer의 긴 시퀀스 처리 시 발생하는 계산 복잡도 문제 해결
- 전체 이력 Transformer의 압축 전략을 Recurrent 모델로 증류
- 고정된 크기의 병목 표현(bottleneck representation)을 통한 메모리 감독
- 선형 시간 복잡도를 유지하며 성능 격차를 실질적으로 단축
Transformer는 순차적 데이터 (sequential data) 모델링에서 강력한 성능을 발휘하는 AI의 핵심 동력이지만, 긴 시퀀스를 처리할 때 계산 비용이 지나치게 높아지는 문제가 있습니다. 우리는 지도 없는 포즈 추정 (map-free pose estimation)과 같이 관측 이력 (history of observations)을 저장하고 유지하는 것이 특히 비실용적인 장기 지평 스트리밍 비전 (long-horizon streaming vision) 및 로보틱스 애플리케이션을 목표로 합니다. Recurrent Transformer는 고정된 크기의 메모리를 유지함으로써 이러한 한계를 해결하지만, 전체 관측 이력을 사용하는 Transformer의 성능에는 미치지 못합니다. 우리는 이러한 격차가 구조적 한계 때문이 아니라, 모델이 과거 정보를 압축하는 방식의 차이에서 기인한다고 주장합니다. 관측 이력에 접근할 수 없는 상태에서, Recurrent 모델은 매 단계마다 메모리에 무엇을 유지할지 명시적으로 결정해야 하며, 이는 훨씬 더 어려운 학습 문제입니다. 본 연구에서는 클래식한 전체 이력 Transformer (full-history transformer)의 압축 전략을 Recurrent 변형 모델로 전달하는 증류 (distillation) 접근 방식을 제안합니다. 우리는 관측 이력을 고정된 크기의 병목 표현 (bottleneck representation)으로 명시적으로 압축하는 교사 모델 (teacher model)을 설계함으로써 이를 가능하게 합니다. 이 병목 표현을 통해 학생 모델 (student model)의 메모리를 직접 감독함으로써, 두 압축 메커니즘을 정렬합니다. 우리는 이 접근 방식을 통해 선형 시간 복잡도 (linear-time complexity)를 가지면서도 전체 이력 Transformer와의 성능 격차를 실질적으로 좁히는 Recurrent 잠재 로봇 메모리 (recurrent latent robotic memory)를 학습시킬 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기