arXiv논문2026. 06. 02. 13:04

이미지 및 텍스트 기반 개인 재식별(Person Re-Identification) 간의 최적화 충돌 해결을 향하여

요약

이미지 및 텍스트 기반 개인 재식별(ReID) 학습 시 발생하는 모달리티 간 최적화 충돌 문제를 분석하고, 이를 해결하기 위한 2단계 학습 파이프라인을 제안합니다. 단일 비전 인코더를 통해 태스크 간 간섭을 최소화하며 교차 모달 검색 성능을 향상시킵니다.

핵심 포인트

I2I와 T2I ReID 간의 상충하는 학습 목표 및 모달리티 불일치 분석
태스크 간 간섭을 방지하는 분리된 2단계 학습 파이프라인 제안
I2I 사전 학습이 T2I 일반화 능력에 긍정적 영향을 미침을 확인
비전 인코더 학습 시 텍스트 감독 통합을 통한 성능 향상

이미지 기반 (I2I) 및 텍스트 기반 (T2I) 개인 재식별 (Person Re-Identification, ReID)의 공동 최적화는 모달리티 불일치 (modality discrepancies) 및 상충하는 학습 목표로 인해 방해를 받으며, 이는 차선(suboptimal)의 공유 표현 (shared representations)으로 이어집니다. I2I ReID가 동일 인물의 이미지들 사이에서 정체성 수준의 불변성 (identity-level invariance)에 집중하는 반면, T2I ReID는 고유한 시각적 특징과 연결된 인스턴스별 텍스트 설명에 의해 구동됩니다. 본 논문은 효과적인 학습을 위해 두 ReID 태스크와 그 최적화 과정 사이의 근본적인 차이점을 탐구합니다. I2I와 T2I ReID는 종종 별개로 연구되기 때문에, 한 가지 검색 설정에 대해 최적화된 손실 함수 (loss functions)가 다른 설정에 필요한 표현 품질에 부정적인 영향을 미칠 수 있습니다. 이러한 발견에 착안하여, 우리는 이미지와 텍스트 모달리티 전반에 걸쳐 공유 표현을 학습하기 위한 분리된 2단계 학습 파이프라인 (decoupled two-stage training pipeline)을 제안합니다. 이 파이프라인은 학습 중 태스크 간 간섭 (cross-task interference)을 피하면서 I2I 및 T2I 검색을 모두 지원하는 단일 비전 인코더 (vision encoder)를 기반으로 합니다. 우리는 도메인 혼합 절차, 학습 전략 및 태스크 목표를 다양화하여 여러 구성에 걸쳐 광범위한 실험을 제공합니다. 우리는 I2I ReID 사전 학습 (pre-training)이 T2I 데이터에 대한 일반화 능력 (generalization ability)에 긍정적인 영향을 미친다는 것을 관찰했습니다. 또한, 비전 인코더 학습 단계에서 텍스트 감독 (textual supervision)을 통합하는 것이 I2I 및 T2I 성능을 모두 향상시킨다는 것을 발견했습니다. 우리는 우리의 통찰이 통합된 ReID 시스템 및 전반적인 교차 모달 검색 (cross-modal retrieval)을 향한 의미 있는 단계가 될 것이라고 믿습니다.

AI 자동 생성 콘텐츠

원문 바로가기

이미지 및 텍스트 기반 개인 재식별(Person Re-Identification) 간의 최적화 충돌 해결을 향하여

요약

핵심 포인트

댓글