Vision-Language Models을 이용한 이미지 분류를 위한 국소적 컨포멀 예측 (Localized Conformal

컨포멀 예측 (Conformal predictions)은 강력한 주변부 커버리지 보장 (marginal coverage guarantees) 덕분에 불확실성 정량화 (uncertainty quantification) 분야에서 상당한 주목을 받아왔습니다. 완전한 조건부 보장 (Full conditional guarantee)은 컨포멀 예측 문헌에서 잘 알려진 사실처럼 달성 가능한 목표가 아닙니다. 그 결과, 여러 접근 방식이 테스트 시점 샘플의 컨포멀 집합 (conformal sets)을 교정 예시 (calibration examples)와의 유사성에 따라 조정함으로써 이러한 동작을 근사화하려고 시도해 왔습니다. 후자의 방식은 회귀 (regression) 문제에서 인기를 얻고 인상적인 성능을 보여주었지만, 이미지 분류 (image classification)에 대한 적용은 여전히 미개척 상태로 남아 있습니다. 우리는 최근의 국소적 컨포멀 예측 (localized conformal prediction) 알고리즘의 오픈 소스 구현을 사용하여, Vision-Language Models (VLMs)를 활용한 자연 이미지 분류 작업에 대해 광범위한 벤치마킹을 수행합니다. 우리는 VLMs에 대한 직관적인 선택인 테스트 시점과 교정 시점의 시각적 특징 (visual features) 사이의 코사인 유사도 (cosine similarity)를 직접 사용하는 것만으로는 비국소적 베이스라인 (non-local baselines)보다 성능을 개선하기에 충분하지 않음을 보여줍니다. 이에 대응하여, 우리는 주변부 커버리지 보장을 유지하면서 통계적으로 유의미한 평균 집합 크기 (mean set sizes) 감소를 달성하는 코사인 유사도의 간단한 비선형 변환 (non-linear transformation)을 제안합니다. 코드는 https://github.com/cfuchs2023/lcp-vlm/ 에서 확인할 수 있습니다.

Insights

Vision-Language Models을 이용한 이미지 분류를 위한 국소적 컨포멀 예측 (Localized Conformal

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법