AREA: CLIP 기반 클래스 증분 학습을 위한 속성 추출 및 집계
요약
CLIP 기반 클래스 증분 학습(CIL)에서 발생하는 치명적 망각 문제를 해결하기 위해 AREA 프레임워크를 제안합니다. 속성 추출과 집계 과정을 분리하여 초구형 임베딩 공간에 속성을 고정하고, 경량 전문가 모델을 통해 안정적인 학습을 구현합니다.
핵심 포인트
- CLIP 기반 CIL의 속성 추출 및 집계 프로세스 제안
- 주 지오데식 분석을 통한 시각적/텍스트 속성 고정
- 변분 정보 병목 기반의 경량 태스크 특화 전문가 학습
- 최적 운송을 활용한 추론 시 태스크 속성 매니폴드 라우팅
- 기존 SOTA 방법론 대비 우수한 성능 입증
클래스 증분 학습 (Class-Incremental Learning, CIL)은 실제 세계의 학습 시스템을 구축하는 데 있어 중요합니다. CLIP 기반 CIL에서 모델은 ``a photo of a [CLASS]''와 같은 템플릿 프롬프트로부터 얻은 시각적 임베딩 (visual embedding)과 텍스트 임베딩 (textual embedding) 사이의 유사성을 비교하여 분류를 수행합니다. 이 겉보기에 단일한 매칭 과정은 개념적으로 구별되는 두 단계인 속성 추출 (attribute extraction)과 속성 집계 (attribute aggregation)로 분해될 수 있습니다. 예를 들어, 모델은 털의 질감이나 수염과 같은 속성을 사용하여 고양이를 인식할 수 있습니다. 자동차와 같은 새로운 클래스를 학습할 때, 모델은 바퀴와 같은 추가적인 속성을 추출하고 공유 표현 공간 (shared representation space)에서 이들이 집계되는 방식을 조정해야 합니다. 그러나 현재 태스크의 데이터만 사용할 수 있기 때문에, 증분 업데이트는 속성 추출과 집계 모두를 새로운 클래스 쪽으로 편향시켜 치명적 망각 (catastrophic forgetting)을 초래할 수 있습니다. 따라서 우리는 CLIP 기반 CIL에서의 속성 추출 및 집계를 위한 AREA를 제안합니다. 추출을 안정화하기 위해, 우리는 주 지오데식 분석 (principal geodesic analysis)을 통해 초구형 임베딩 공간 (hyperspherical embedding space) 상에 클래스 수준의 시각적 및 텍스트 속성을 고정(anchor)합니다. 집계를 안정화하기 위해, 우리는 변분 정보 병목 (variational information bottleneck) 목적 함수에 의해 정규화되는 스코어링 (scoring) 및 잔차 정제 (residual refinement) 기능을 갖춘 경량 태스크 특화 전문가 (task-specific experts)를 학습합니다. 추론 과정에서는 더 간결한 예측을 위해 최적 운송 (optimal transport)을 통해 태스크 속성 매니폴드 (task attribute manifolds)에 대한 라우팅 (routing)을 수행합니다. 실험 결과, AREA는 SOTA (State-of-the-Art) 방법들을 일관되게 능가함을 보여줍니다. 코드는 https://github.com/LAMDA-CL/ICML2026-AREA 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기