InduceKV: KV 메모리 유도를 통한 멀티모달 LLM의 고정된 발자국 연속 적응

멀티모달 대규모 언어 모델(Multimodal large language models)은 진화하는 작업과 도메인에 적응해야 하지만, 제한된 배포 발자국(deployment footprint) 하에서의 지속적인 개선은 여전히 어렵습니다. 이는 반복적인 파라미터 업데이트나 점증하는 리플레이 저장소(replay stores)가 시간이 지남에 따라 적응 상태를 축적할 수 있기 때문입니다. 우리는 고정된 발자국 연속 적응(fixed-footprint continual adaptation)을 연구합니다. 즉, 백본 모델(backbone model)은 변경하지 않고 작업별 업데이트를 외부화하는 동시에, 배포되는 적응 상태를 고정된 메모리 예산 내로 유지하는 방식입니다. 우리는 선택된 각 학습 접두사(training prefix)를 어텐션 준비가 된 메모리 항목(attention-ready memory entry)으로 저장하는 검색 기반 방법론인 InduceKV를 제안합니다. 이 항목은 동결된 검색 키(retrieval key)와 모델의 셀프 어텐션 캐시(self-attention cache)에 추가될 수 있는 컴팩트한 계층별 키-값(KV) 페이로드(payloads)로 구성됩니다. 엄격한 메모리 예산 하에서, InduceKV는 이중 수준 선택(bilevel selection)을 통해 컴팩트한 유도 세트(inducing set)를 구축합니다. 즉, 검색을 위해 경량 보정(lightweight calibration)을 맞추는 한편, 선택된 메모리는 현재 작업의 가능성(likelihood), 앵커 기반 유지(anchor-based retention), 그리고 동결된 검색 공간에서의 커버리지(coverage) 사이의 균형을 맞춥니다. 작업 점진적 지시어 튜닝(task-incremental instruction tuning), 연속적 VQA(continual VQA), 도메인 점진적 적응(domain-incremental adaptation), 그리고 평생 멀티모달 지시어 튜닝(lifelong multimodal instruction tuning) 전반에 걸쳐, InduceKV는 동일한 메모리 예산 조건에서 PEFT, MoE, 리플레이(replay), 프롬프트 검색(prompt-retrieval) 베이스라인보다 일관되게 향상된 성능을 보여줍니다. 우리는 더 나아가 백본 매칭(backbone-matched), stage-1 CoIN, 연산 매칭(compute-matched), 그리고 확장성 진단을 보고하며, 이러한 이득이 더 강력한 백본이나 리플레이 단독, 또는 무제한의 후보 풀(candidate pool) 때문이 아님을 보여줍니다.

Insights

InduceKV: KV 메모리 유도를 통한 멀티모달 LLM의 고정된 발자국 연속 적응

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때