Vision-Language Models을 이용한 이미지 분류를 위한 국소적 컨포멀 예측 (Localized Conformal
요약
Vision-Language Models(VLMs)를 활용한 이미지 분류에서 불확실성을 정량화하기 위한 국소적 컨포멀 예측(Localized Conformal Prediction) 연구를 소개합니다. 기존 코사인 유사도 방식의 한계를 극복하기 위해 비선형 변환을 제안하며, 이를 통해 평균 집합 크기를 효과적으로 감소시켰습니다.
핵심 포인트
- VLMs 기반 이미지 분류를 위한 국소적 컨포멀 예측 벤치마킹 수행
- 단순 코사인 유사도 사용 시 비국소적 베이스라인 대비 성능 개선 미흡 확인
- 주변부 커버리지를 유지하며 집합 크기를 줄이는 비선형 변환 제안
- 오픈 소스 코드를 통한 연구 결과 공유
컨포멀 예측 (Conformal predictions)은 강력한 주변부 커버리지 보장 (marginal coverage guarantees) 덕분에 불확실성 정량화 (uncertainty quantification) 분야에서 상당한 주목을 받아왔습니다. 완전한 조건부 보장 (Full conditional guarantee)은 컨포멀 예측 문헌에서 잘 알려진 사실처럼 달성 가능한 목표가 아닙니다. 그 결과, 여러 접근 방식이 테스트 시점 샘플의 컨포멀 집합 (conformal sets)을 교정 예시 (calibration examples)와의 유사성에 따라 조정함으로써 이러한 동작을 근사화하려고 시도해 왔습니다. 후자의 방식은 회귀 (regression) 문제에서 인기를 얻고 인상적인 성능을 보여주었지만, 이미지 분류 (image classification)에 대한 적용은 여전히 미개척 상태로 남아 있습니다. 우리는 최근의 국소적 컨포멀 예측 (localized conformal prediction) 알고리즘의 오픈 소스 구현을 사용하여, Vision-Language Models (VLMs)를 활용한 자연 이미지 분류 작업에 대해 광범위한 벤치마킹을 수행합니다. 우리는 VLMs에 대한 직관적인 선택인 테스트 시점과 교정 시점의 시각적 특징 (visual features) 사이의 코사인 유사도 (cosine similarity)를 직접 사용하는 것만으로는 비국소적 베이스라인 (non-local baselines)보다 성능을 개선하기에 충분하지 않음을 보여줍니다. 이에 대응하여, 우리는 주변부 커버리지 보장을 유지하면서 통계적으로 유의미한 평균 집합 크기 (mean set sizes) 감소를 달성하는 코사인 유사도의 간단한 비선형 변환 (non-linear transformation)을 제안합니다. 코드는 https://github.com/cfuchs2023/lcp-vlm/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기