arXiv중요논문2026. 04. 24. 11:10

Ramen: 혼합 도메인 환경을 위한 강력한 테스트 시간 적응 프레임워크

요약

CLIP과 같은 사전 학습된 비전-언어 모델(VLM)은 제로샷 일반화 능력이 뛰어나지만, 실제 환경의 분포 변화에 취약합니다. 기존 테스트 시간 적응(Test-Time Adaptation, TTA) 방법들은 단일 도메인 가정 하에 설계되어 혼합 도메인 데이터셋에서 성능 저하를 겪습니다. 본 논문은 'Ramen'이라는 프레임워크를 제안하며, 능동 샘플 선택(Active Sample Selection)을 통해 이러한 문제를 해결합니다. Ramen은 들어오는 테스트 샘플마다 두 가지 기준(도메인 일관성 및 예측 균형)에 따라 과거 데이터

핵심 포인트

Ramen은 능동 샘플 선택을 활용하여 혼합 도메인 환경에서의 VLM 적응 성능을 강화했습니다.
적응 과정에서 '도메인 일관성'과 '예측 균형' 두 가지 기준을 적용하여 편향을 최소화합니다.
효율성을 위해 임베딩-그래디언트 캐시(embedding-gradient cache)를 도입, 추가적인 순전파/역전파 없이 모델 업데이트가 가능합니다.
다양한 이미지 손상 및 도메인 변화 벤치마크에서 Ramen이 강력하고 일관된 성능을 입증했습니다.

사전 학습된 비전-언어 모델(VLM)은 CLIP과 같은 모델에서 뛰어난 제로샷 일반화 능력을 보여주지만, 실제 환경의 데이터 분포가 변할 경우(distribution shifts) 민감하게 반응하는 한계를 지닙니다. 테스트 시간 적응(Test-Time Adaptation, TTA)은 소스 데이터나 타겟 레이블에 접근할 수 없는 추론 단계에서 모델을 조정하여 이러한 분포 변화 문제를 실용적으로 해결하는 방법입니다.

하지만 기존의 TTA 기법들은 테스트 샘플이 단일하고 일관된 도메인(single, consistent domain)에서 온다고 가정합니다. 반면 실제 현장의 테스트 데이터는 특성이 다른 여러 도메인의 샘플들이 혼합되어 있는 경우가 많으며, 이로 인해 기존 방법들의 성능이 크게 저하됩니다.

본 논문은 이러한 문제를 해결하기 위해 'Ramen'이라는 프레임워크를 제안합니다. Ramen의 핵심은 **능동 샘플 선택(Active Sample Selection)**을 통해 테스트 시간 적응을 수행하는 것입니다. Ramen은 들어오는 각 테스트 샘플에 대해, 이전에 접했던 데이터들 중에서 관련성 높은 맞춤형 배치(customized batch)의 샘플들을 검색하여 가져옵니다. 이때 두 가지 중요한 기준을 적용합니다:

도메인 일관성 (Domain Consistency): 적응이 유사한 도메인의 데이터에 집중되도록 보장합니다.
예측 균형 (Prediction Balance): 예측 결과가 특정 클래스에 치우쳐서 발생하는 적응 편향(adaptation bias)을 완화시킵니다.

또한, Ramen은 효율성을 극대화하기 위해 **임베딩-그래디언트 캐시(embedding-gradient cache)**라는 메커니즘을 사용합니다. 이 캐시는 과거 테스트 이미지들의 임베딩과 샘플 레벨의 그래디언트(gradients)를 저장해 둡니다. 검색된 관련 샘플들은 저장된 임베딩을 통해 찾아내고, 해당 샘플들의 그래디언트를 집계하여 모델 업데이트에 활용할 수 있습니다. 이 방식은 추가적인 순전파(forward pass)나 역전파(backward pass) 과정을 필요로 하지 않아 계산 효율성이 매우 높습니다.

이러한 적응 메커니즘의 효과는 이론적 분석을 통해 입증되었으며, 다양한 이미지 손상 및 도메인 변화 벤치마크 실험에서 Ramen이 강력하고 일관된 성능을 보여주었습니다. 이는 복잡한 혼합 도메인 시나리오에서도 신뢰할 수 있는 적응 능력을 제공함을 의미합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Ramen: 혼합 도메인 환경을 위한 강력한 테스트 시간 적응 프레임워크

요약

핵심 포인트

댓글