객체 중심 LeJEPA (Object-centric LeJEPA)
요약
객체 중심 LeJEPA는 장면 전체가 아닌 개별 객체 수준에서 표현을 정렬하여 데이터 효율성을 높인 자기지도 학습 방식입니다. SAM의 제안을 활용해 분할과 표현 학습 사이의 불안정성을 해결했으며, 다양한 다운스트림 태스크에서 기존 이미지 수준 LeJEPA보다 우수한 성능을 입증했습니다.
핵심 포인트
- 객체 중심 표현 정렬을 통한 데이터 효율성 향상
- SAM(Segment Anything Model)을 활용한 학습 불안정성 해결
- 인스턴스 분리 손실을 통한 다운스트림 성능 강화
- 추적, 분류, 세그멘테이션 등 다양한 작업에서 성능 우위 확인
LeJEPA로 학습된 이미지 인코더(Image encoders)는 다운스트림 태스크(downstream tasks)를 위한 강력한 특징(features)을 제공할 수 있지만, 다른 이미지 수준의 자기지도 학습(self-supervised) 방식과 마찬가지로 일반적으로 대규모 학습 데이터셋을 필요로 합니다. 전체 장면(scenes)보다는 객체(objects) 수준에서 표현(representations)을 정렬하는 것은 더 높은 데이터 효율성을 약속하지만, 이를 완전히 자기지도 방식으로 수행하는 것, 즉 장면을 분할(partitioning)하는 것과 객체를 표현하는 것을 효과적으로 공동 수행하는 것은 불안정합니다. 이 두 과정은 순환적 의존성(cyclic dependency)에 갇혀 있기 때문입니다. 즉, 분할에는 의미 있는 표현이 필요하고, 의미 있는 표현에는 일관된 분할이 필요합니다. 우리는 훈련 과정에서 저렴하고 기성 제품인 SAM 제안(proposals)을 사용하여 객체 마스크(object masks)를 주어진 것으로 취급함으로써 이러한 불안정성을 피합니다. 우리는 전체 이미지에서 가변 크기의 객체 집합으로 자연스럽게 이식되는 분포적 안티-붕괴(distributional anti-collapse) 목적 함수를 가진 LeJEPA를 확장하여, 전체 이미지가 아닌 객체 중심 표현(object-centric representations)을 정렬하도록 합니다. 동일한 장면 내의 다른 객체들을 네거티브(negatives)로 취급하는 추가적인 인스턴스 분리 손실(instance-separating loss)은 다운스트림 성능을 더욱 향상시킵니다. 두 가지 모델 규모와 COCO 데이터셋의 10-100%를 사용하여 실험한 결과, 객체 수준의 LeJEPA는 추적(DAVIS), 분류(ImageNet-1k), 세그멘테이션(ADE20k), 그리고 재식별(NAVI) 작업에서 이미지 수준의 LeJEPA보다 뛰어난 성능을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기