arXiv논문2026. 06. 25. 12:06

결합 희소 오토인코더(Joint Sparse Autoencoders)를 이용한 시각-언어 모델(Vision-Language Models) 제어

요약

시각-언어 모델(VLM)의 해석 가능성을 높이기 위해 결합 희소 오토인코더(JSAE)를 제안합니다. JSAE는 시각 및 언어 활성화 값을 공유된 특징으로 공동 인수분해하여 교차 모달 제어를 가능하게 합니다.

핵심 포인트

JSAE를 통해 시각-언어 모델의 해석 가능한 특징 추출 가능
가산적 스티어링과 억제 기법을 통한 양방향 개입 실험 수행
층 의존적 비대칭성 관찰: 가산적 스티어링은 중간/후반부 층에서 효과적
LLaVA, Qwen3-VL 등 다양한 VLM 아키텍처에서 일관된 효과 확인

희소 오토인코더 (Sparse Autoencoders, SAEs)는 언어 모델을 분석하는 데 유망한 가능성을 보여주었으나, 이를 시각-언어 모델 (Vision-Language Models, VLMs)에 적용할 경우 제어 가능한 교차 모달 (cross-modal) 스티어링 방향으로 사용하기 어려운 표현을 생성하는 경우가 많습니다. 본 연구에서는 명시적인 정렬 제약 (alignment constraint)을 사용하여 시퀀스 풀링된 (sequence-pooled) 시각 및 언어 활성화 값을 공유된, 해석 가능한 이미지/캡션 수준의 특징으로 공동 인수분해 (jointly factorize)하는 결합 희소 오토인코더 (Joint Sparse Autoencoder, JSAE)를 소개합니다. LLaVA에 적용했을 때, JSAE는 인식 가능한 개념(예: 음식 및 동물)에 대한 교차 모달 특징을 복원합니다. 양방향 개입 (bidirectional interventions; 가산적 스티어링 (additive steering) 및 억제 (suppression))을 통해, 우리는 본 프로토콜 하에서 층 의존적 비대칭성 (layer-dependent asymmetry)을 관찰했습니다. 가산적 스티어링은 중간에서 후반부 (출력 전) 층에서 정점을 찍고 양 끝단에서는 약화되는 반면, 억제 점수는 통계적 노이즈 범위 내에서 조사된 모든 층에 걸쳐 유사한 범위를 유지합니다. LLaVA-v1.6-Mistral-7B, Llama3-LLaVA-8B, 그리고 MoE 기반의 Qwen3-VL-30B라는 세 가지 VLM에 대한 실험은 아키텍처 전반에 걸쳐 유사한 층 국소적 효과 (layer-localized effects)를 보여줍니다. 종합적으로, 이러한 결과는 명시적으로 정렬된 희소 표현 (sparse representations)이 여기서 테스트된 제약 없는 대안들보다 식별 가능한 층 범위 내에서 멀티모달 특징에 대한 더 제어 가능한 개입 기반 분석을 지원함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

결합 희소 오토인코더(Joint Sparse Autoencoders)를 이용한 시각-언어 모델(Vision-Language Models) 제어

요약

핵심 포인트

댓글