임베딩의 개념화: 시각-언어 모델(Vision-Language Models)을 위한 희소 얽힘 해제 (Sparse Disentanglement)
요약
시각-언어 모델의 불투명한 임베딩 구조를 해석하기 위해 차원 확장 없이도 의미론적 특징을 추출하는 CEDAR 방식을 제안합니다. 가역적 변환을 통해 임베딩을 축에 정렬된 형태로 해제하여 CLIP이나 BLIP 모델의 해석 가능성을 높였습니다.
핵심 포인트
- 차원 확장 없이 임베딩의 구성적 구조를 밝히는 CEDAR 제안
- 가역적 변환을 통해 의미론적 정보를 축 정렬된 좌표로 집중
- CLIP 및 BLIP 모델에서 텍스트 개념 및 자연어 설명 디코딩 가능
- 재구성-희소성 트레이드오프를 달성하며 인간 지각과 일치하는 결과 도출
시각-언어 모델(Vision-language models)은 강력한 멀티모달 임베딩(multimodal embeddings)을 학습하지만, 그 내부의 의미론(semantics)은 여전히 불투명합니다. 희소 오토인코더(Sparse Autoencoders, SAEs)가 해석 가능한 특징(features)을 추출할 수는 있지만, 이는 표현 차원(representation dimension)을 확장하는 것에 의존하며, 이 과정에서 원래의 기하학적 구조(geometry)가 손상되고 중복성(redundancy)이 발생합니다. 우리는 차원을 늘리지 않고도 사전 학습된 임베딩의 구성적 구조(compositional structure)를 밝혀내는 사후(post-hoc) 방식인 CEDAR(Conceptual Embedding Disentanglement via Adaptive Rotation)를 소개합니다. CEDAR는 top-$k$ 희소성 병목(sparsity bottleneck)을 가진 가역적 변환(invertible transformation)을 학습함으로써, 의미론적 정보를 축에 정렬된 얽힘이 해제된 좌표(axis-aligned disentangled coordinates)로 집중시킵니다. CLIP과 유사한 구조(CLIP-like architecture)에서는 개별 좌표를 텍스트 개념으로 해석할 수 있으며, BLIP과 같은 생성 모델(generative models)의 경우 이를 자연어 설명으로 디코딩(decode)할 수 있습니다. 실험을 통해 CEDAR가 경쟁력 있는 재구성-희소성 트레이드오프(reconstruction-sparsity trade-off)를 달성하는 동시에, 인간의 지각(human perception)과 더 잘 일치하고 더 해석 가능한 설명을 생성함을 입증했습니다. 우리의 결과는 시각-언어 표현(vision-language representations)에서 나타나는 명백한 얽힘(entanglement)이 적절한 기저 변환(change of basis)을 통해 해결될 수 있으며, 과완전 확장(overcomplete expansions)의 필요성을 제거할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기