arXiv논문2026. 06. 02. 11:48

Open-Set Test-time Adaptation에서의 In-Distribution 대 Out-of-Distribution 정확도에 대한

요약

Open-set Test-time Adaptation(TTA) 환경에서 In-distribution(InD) 정확도와 Out-of-distribution(OOD) 탐지 능력 사이의 관계를 분석합니다. CIFAR-10-C 및 ImageNet-C 벤치마크를 통해 기존 방법론들의 한계를 검증하고 새로운 베이스라인을 제안합니다.

핵심 포인트

기존 TTA 방법론들이 InD 정확도 향상에 치중하여 OOD 탐지 능력이 부족함을 지적
CIFAR-10-C 및 ImageNet-C를 활용한 광범위한 벤치마킹 수행
InD 인식과 OOD 거부 사이의 트레이드오프 분석
Sigmoid/Multi-label 출력을 활용한 새로운 베이스라인 제안

Open-set test-time adaptation (TTA)는 입력 변화(input shifts)와 미지의 출력 클래스(unknown output classes)가 존재하는 상황에서 새로운 데이터에 대해 모델을 업데이트합니다. 최근의 방법론들이 알려진 클래스에 대한 In-distribution (InD) 정확도를 향상시키는 데 진전을 이루었지만, Out-of-distribution (OOD) 미지 클래스를 정확하게 탐지하는 능력은 여전히 충분히 연구되지 않았습니다. 우리는 소규모 규모의 CIFAR-10-C 및 대규모 규모의 ImageNet-C 표준 오염 벤치마크(corruption benchmarks)에서 강건한(robust) 및 open-set TTA 방법론들(SAR, OSTTA, UniEnt, SoTTA)을 벤치마킹합니다. CIFAR-10-C의 경우, 각각 SVHN-C 및 CIFAR-100-C 형태의 오염된 SVHN 및 CIFAR-100 데이터를 OOD 데이터로 사용합니다. ImageNet-C의 경우, 각각 ImageNet-O-C 및 Textures-C 형태의 오염된 ImageNet-O 및 Textures 데이터를 OOD 데이터로 사용합니다. ImageNet-O는 미지이지만 연관된 객체 클래스(예: 음식의 경우 'garlic bread' 대 'hot dog', 인프라의 경우 'highway' 대 'dam')를 포함하므로 ImageNet에 더 가깝습니다. 반면 Textures는 비객체 패턴(예: 'cracked' 진흙, 'porous' 스펀지, 'veined' 잎)을 포함하므로 ImageNet에서 더 멀리 떨어져 있습니다. 우리는 CIFAR-10-C 및 ImageNet-C에서 InD 대 OOD 인식을 위한 TTA 방법론들의 정확도와 신뢰도(confidence)를 평가합니다. CIFAR-10-C에서 각 방법론이 가진 자체 OOD 탐지 기술의 정확도를 검증합니다. 또한 ImageNet-C에서도 평가를 수행하며 정확도와 표준 OOD 탐지 지표를 모두 보고합니다. 나아가 OOD 데이터의 비율과 발생률이 변할 수 있는 더 현실적인 설정들을 조사합니다. InD 인식과 OOD 거부(rejection) 사이의 트레이드오프(trade-off)를 탐구하기 위해, 우리는 softmax/multi-class 출력을 sigmoid/multi-label 출력으로 대체하는 새로운 베이스라인(baseline)을 제안합니다. 우리의 분석은 현재의 open-set TTA 방법론들이 InD와 OOD 정확도 사이의 균형을 맞추는 데 어려움을 겪고 있으며, 자체적인 적응 업데이트(adaptation updates)를 위해 OOD 데이터를 불완전하게만 필터링한다는 점을 처음으로 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Open-Set Test-time Adaptation에서의 In-Distribution 대 Out-of-Distribution 정확도에 대한

요약

핵심 포인트

댓글