arXiv논문2026. 06. 18. 11:46

시각-언어 모델(Vision-Language Models)을 위한 의미론적 강건성 인증

요약

시각-언어 모델(VLM)이 모양, 크기, 스타일 등 의미론적 변이로 인해 발생하는 분포 변화에 대응할 수 있도록 하는 새로운 강건성 인증 프레임워크를 제안합니다. 텍스트 프롬프트를 활용해 의미론적 변이 범위를 제어하며, 추가 데이터 없이도 모델의 예측이 유지되는 구간을 정량적으로 인증합니다.

핵심 포인트

의미론적 수준의 변환에 대한 VLM 강건성 인증 프레임워크 제안
텍스트 프롬프트를 의미론적 대리자로 활용하여 변이 정도를 매개변수화
VLM 결정 경계를 폐쇄형으로 특성화하여 예측 유지 구간을 정량화
추가 데이터 없이 실용적인 의미론적 강건성 인증 가능

시각-언어 모델(Vision-Language Models, VLMs)은 현재 다운스트림 태스크(downstream tasks)에서 널리 사용되고 있습니다. 그러나 실제 응용 분야에서 VLM은 의미론적 변이(semantic variation)(예: 모양, 크기, 스타일)로 인해 발생하는 분포 변화(distribution shifts)에 자주 노출됩니다. 강건성 인증(Robustness certification)은 입력에 변환(transformations)이 적용되었을 때 모델의 예측이 변하는지 여부를 결정합니다. 대부분의 인증 프레임워크는 입력에 대한 기하학적(geometric) 또는 픽셀 수준(pixel-level)의 변환을 연구하는 반면, 본 연구는 의미론적 수준(semantic-level)의 변환 하에서 VLM의 강건성을 인증할 수 있는 새로운 프레임워크를 제안합니다. VLM의 개방형 어휘(open-vocabulary) 능력을 활용하여, 우리는 텍스트 프롬프트(text prompts)를 의미론적 대리자(semantic proxies)로 사용하여 의미론적 변이의 정도를 제어하는 범위(extent)로 매개변수화된 변환을 구축합니다. VLM 결정 경계(decision boundary)를 폐쇄형(closed form)으로 특성화함으로써, 우리의 프레임워크는 의미론적 변환 하에서 예측 클래스가 변하지 않는 범위 구간(extent intervals)을 정량적으로 인증합니다. 우리의 프레임워크는 각 변이에 대한 추가 데이터 없이 의미론적 수준의 변이 하에서 VLM의 강건성을 인증하는 최초의 사례이며, 이를 통해 적용의 실용성을 확보했습니다. 합성 데이터(synthetic data)와 실제 데이터(real-world data) 모두에 대한 실험을 통해, 우리의 프레임워크가 다양한 시나리오에 걸쳐 다양한 의미론적 변이 하에서의 강건성을 인증할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각-언어 모델(Vision-Language Models)을 위한 의미론적 강건성 인증

요약

핵심 포인트

댓글