객체 중심 LeJEPA (Object-centric LeJEPA)

LeJEPA로 학습된 이미지 인코더(Image encoders)는 다운스트림 태스크(downstream tasks)를 위한 강력한 특징(features)을 제공할 수 있지만, 다른 이미지 수준의 자기지도 학습(self-supervised) 방식과 마찬가지로 일반적으로 대규모 학습 데이터셋을 필요로 합니다. 전체 장면(scenes)보다는 객체(objects) 수준에서 표현(representations)을 정렬하는 것은 더 높은 데이터 효율성을 약속하지만, 이를 완전히 자기지도 방식으로 수행하는 것, 즉 장면을 분할(partitioning)하는 것과 객체를 표현하는 것을 효과적으로 공동 수행하는 것은 불안정합니다. 이 두 과정은 순환적 의존성(cyclic dependency)에 갇혀 있기 때문입니다. 즉, 분할에는 의미 있는 표현이 필요하고, 의미 있는 표현에는 일관된 분할이 필요합니다. 우리는 훈련 과정에서 저렴하고 기성 제품인 SAM 제안(proposals)을 사용하여 객체 마스크(object masks)를 주어진 것으로 취급함으로써 이러한 불안정성을 피합니다. 우리는 전체 이미지에서 가변 크기의 객체 집합으로 자연스럽게 이식되는 분포적 안티-붕괴(distributional anti-collapse) 목적 함수를 가진 LeJEPA를 확장하여, 전체 이미지가 아닌 객체 중심 표현(object-centric representations)을 정렬하도록 합니다. 동일한 장면 내의 다른 객체들을 네거티브(negatives)로 취급하는 추가적인 인스턴스 분리 손실(instance-separating loss)은 다운스트림 성능을 더욱 향상시킵니다. 두 가지 모델 규모와 COCO 데이터셋의 10-100%를 사용하여 실험한 결과, 객체 수준의 LeJEPA는 추적(DAVIS), 분류(ImageNet-1k), 세그멘테이션(ADE20k), 그리고 재식별(NAVI) 작업에서 이미지 수준의 LeJEPA보다 뛰어난 성능을 보였습니다.

Insights

객체 중심 LeJEPA (Object-centric LeJEPA)

요약

핵심 포인트

댓글

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

지속 상태 AI 제어에서의 분산 공격

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

지속 상태 AI 제어에서의 분산 공격