InduceKV: KV 메모리 유도를 통한 멀티모달 LLM의 고정된 발자국 연속 적응
요약
InduceKV는 멀티모달 LLM의 배포 메모리 제한을 해결하기 위해 제안된 고정된 발자국 연속 적응 방법론입니다. 백본 모델을 변경하지 않고, 검색 기반의 컴팩트한 KV 페이로드를 사용하여 메모리 예산 내에서 효율적인 작업 적응을 수행합니다.
핵심 포인트
- 백본 모델 변경 없이 외부 메모리 항목을 통한 연속적 적응 구현
- 이중 수준 선택(bilevel selection)을 통한 효율적인 유도 세트 구축
- PEFT, MoE, 리플레이 등 기존 베이스라인 대비 우수한 성능 입증
- 제한된 메모리 예산 내에서 멀티모달 지시어 튜닝 및 VQA 최적화
멀티모달 대규모 언어 모델(Multimodal large language models)은 진화하는 작업과 도메인에 적응해야 하지만, 제한된 배포 발자국(deployment footprint) 하에서의 지속적인 개선은 여전히 어렵습니다. 이는 반복적인 파라미터 업데이트나 점증하는 리플레이 저장소(replay stores)가 시간이 지남에 따라 적응 상태를 축적할 수 있기 때문입니다. 우리는 고정된 발자국 연속 적응(fixed-footprint continual adaptation)을 연구합니다. 즉, 백본 모델(backbone model)은 변경하지 않고 작업별 업데이트를 외부화하는 동시에, 배포되는 적응 상태를 고정된 메모리 예산 내로 유지하는 방식입니다. 우리는 선택된 각 학습 접두사(training prefix)를 어텐션 준비가 된 메모리 항목(attention-ready memory entry)으로 저장하는 검색 기반 방법론인 InduceKV를 제안합니다. 이 항목은 동결된 검색 키(retrieval key)와 모델의 셀프 어텐션 캐시(self-attention cache)에 추가될 수 있는 컴팩트한 계층별 키-값(KV) 페이로드(payloads)로 구성됩니다. 엄격한 메모리 예산 하에서, InduceKV는 이중 수준 선택(bilevel selection)을 통해 컴팩트한 유도 세트(inducing set)를 구축합니다. 즉, 검색을 위해 경량 보정(lightweight calibration)을 맞추는 한편, 선택된 메모리는 현재 작업의 가능성(likelihood), 앵커 기반 유지(anchor-based retention), 그리고 동결된 검색 공간에서의 커버리지(coverage) 사이의 균형을 맞춥니다. 작업 점진적 지시어 튜닝(task-incremental instruction tuning), 연속적 VQA(continual VQA), 도메인 점진적 적응(domain-incremental adaptation), 그리고 평생 멀티모달 지시어 튜닝(lifelong multimodal instruction tuning) 전반에 걸쳐, InduceKV는 동일한 메모리 예산 조건에서 PEFT, MoE, 리플레이(replay), 프롬프트 검색(prompt-retrieval) 베이스라인보다 일관되게 향상된 성능을 보여줍니다. 우리는 더 나아가 백본 매칭(backbone-matched), stage-1 CoIN, 연산 매칭(compute-matched), 그리고 확장성 진단을 보고하며, 이러한 이득이 더 강력한 백본이나 리플레이 단독, 또는 무제한의 후보 풀(candidate pool) 때문이 아님을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기