지속적인 시각-언어 통합을 통한 퓨샷 도메인 점진적 학습 (Few-Shot Domain Incremental Learning via
요약
데이터가 부족한 환경에서 새로운 도메인에 적응하는 퓨샷 도메인 점진적 학습(FSDIL) 문제를 해결하기 위한 CVLC 알고리즘을 제안합니다. 시각-언어 프로토타입 통합과 잠재 공간 예약 기술을 통해 기존 방식 대비 최대 16% 향상된 성능을 입증했습니다.
핵심 포인트
- 데이터 부족 문제를 해결하는 FSDIL 문제 제기
- 시각-언어 통합을 위한 CVLC 알고리즘 제안
- PEFT 기반의 이중 병합 투영(DCP) 기술 활용
- 베이스 도메인 잠재 공간 예약을 통한 도메인 적응
- 기존 기술 대비 최대 16% 성능 향상 달성
기존의 도메인 점진적 학습 (Domain-Incremental Learning, DIL) 전략은 새로운 도메인에 적응하기 위해 방대한 양의 데이터를 요구하며, 데이터가 부족한 경우 과적합 (Overfitting) 문제로 어려움을 겪습니다. 본 논문은 DIL 영역에서의 극심한 데이터 부족 문제를 고려하여, 상대적으로 미개척 분야인 퓨샷 도메인 점진적 학습 (Few-Shot Domain Incremental Learning, FSDIL)이라는 문제를 제기합니다. FSDIL 문제를 해결하기 위해 지속적인 시각-언어 통합 (Continual Vision-Language Consolidation, CVLC)이라는 새로운 알고리즘을 제안하며, 핵심 아이디어는 매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT) 방법으로서 이중 병합 투영 (Dual Coalescent Projection, DCP)과 결합된 베이스 도메인의 잠재 공간 예약 (Latent Space Reservation) 개념에 있습니다. 먼저, 시각적 프로토타입 (Vision Prototype)을 교정하는 동시에, LLM을 통해 다수의 템플릿과 유의어를 생성하여 언어 프로토타입 (Language Prototype)을 유도합니다. 이후 시각적 프로토타입과 언어 프로토타입을 융합합니다. 끊임없이 유입되는 새로운 도메인에 대한 적응은 DCP 기술을 통해 수행되며, 이는 베이스 도메인에 할당된 잠재 공간 예약을 통해 모델이 보지 못한 도메인에 대비할 수 있도록 미세 조정됩니다. CVLC는 일반적인 지식과 도메인별 세부 사항을 결합하기 위해 공유 구성 요소와 도메인별 구성 요소로 구조화되어 있습니다. 우리 접근 방식의 장점은 다양한 벤치마크 문제와 기존 기술들과의 비교를 통해 입증되었으며, CVLC는 기존 방식들보다 최대 16%의 격차로 성능이 뛰어남을 보여주었습니다. 우리의 코드는 https://github.com/Naeem-Paeedeh/CVLC 에 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기