동적 멀티모달 인컨텍스트 러닝을 위한 태스크 인지 구조화 메모리 (Task-Aware Structured Memory)
요약
멀티모달 거대 언어 모델(MLLM)의 인컨텍스트 러닝 효율성을 높이기 위한 새로운 프레임워크 TASM을 제안합니다. TASM은 태스크 벡터 가이드 압축과 의미 인지적 토큰 병합을 통해 KV 캐시 비용을 줄이면서도 모델의 성능과 적응성을 유지합니다.
핵심 포인트
- MLLM의 컨텍스트 윈도우 및 KV 캐시 확장성 문제 해결
- 태스크 벡터 가이드를 통한 샘플 간 공유 관련성 포착
- 이분 그래프 매칭 기반의 의미 인지적 토큰 병합 적용
- 코어 메모리와 잠재 뱅크의 계층 구조를 통한 동적 검색 구현
- 훈련이 필요 없는(training-free) 효율적인 메모리 압축 방식
멀티모달 거대 언어 모델 (MLLMs)은 빠른 태스크 적응을 위해 인컨텍스트 러닝 (ICL)에 의존하지만, 유한한 컨텍스트 윈도우 (context windows)와 긴 멀티모달 시퀀스에서 증가하는 키-값 (KV) 캐시 비용으로 인해 확장성이 심각하게 제한됩니다. 기존의 메모리 압축 방식은 일반적으로 경직된 토큰 제거 또는 샘플 의존적인 중요도 추정에 의존하며, 이는 편향을 유발하고 특히 시각적 표현 (visual representations)에 대한 의미적 구조를 저해하며, 새로운 쿼리에 적응할 수 없는 정적 메모리를 생성합니다. 우리는 태스크 인지적 (task-aware), 구조 보존적 (structure-preserving), 그리고 동적으로 접근 가능한 메모리 구축을 통해 이러한 한계를 해결하는 훈련이 필요 없는 (training-free) 프레임워크인 TASM (Task-Aware Structured Memory)을 소개합니다. TASM은 태스크 벡터 (task-vector) 가이드 압축을 채택하여 샘플 특정 신호를 데모니스트레이션 (demonstrations) 전반에 걸친 공유된 관련성을 포착하는 태스크 수준의 방향으로 대체합니다. 기저의 매니폴드 (manifold)를 보존하기 위해, 이 방식은 이분 그래프 매칭 (bipartite graph matching)을 통한 의미 인지적 토큰 병합 (semantics-aware token merging)을 적용하여 파괴적인 가지치기 (pruning) 없이 토큰을 집계합니다. 마지막으로, TASM은 메모리를 컴팩트한 코어 메모리 (Core Memory)와 잠재 뱅크 (Latent Bank)로 구성된 계층 구조로 구조화하여 쿼리 적응형 동적 검색 (query-adaptive dynamic retrieval)을 용이하게 합니다. 평가 결과, TASM은 높은 압축률 하에서도 높은 성능을 유지하며 효율성과 적응성 사이의 균형을 효과적으로 맞추는 것으로 확인되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기