arXiv논문2026. 06. 23. 12:09

희소 오토인코더 (Sparse Autoencoders)를 통한 시각-언어 모델 (Vision Language Models) 내 멀티모달 개념의

요약

시각-언어 모델(VLM)의 내부 작동 원리를 이해하기 위해 희소 오토인코더(SAE)를 활용하여 시각적, 텍스트적, 멀티모달 개념을 추출하는 새로운 프레임워크를 제안합니다. 기존 방식의 한계를 넘어 멀티모달 개념을 체계적으로 식별하고 시각적 개념의 품질을 크게 향상시켰습니다.

핵심 포인트

SAE를 활용해 VLM 내 멀티모달 개념을 추출하는 프레임워크 제안
기존 대비 시각적 개념 품질을 최대 45% 향상
인간이 해석 가능한 개념 제안 및 코사인 유사도 기반 정렬 방식 사용
LLaVA-NeXT 데이터셋을 통한 성능 검증 완료

시각-언어 모델 (Vision Language Models, VLMs)은 이미지 캡셔닝 (image captioning) 및 시각적 질의응답 (Visual Question Answering, VQA)과 같이 이미지와 텍스트의 공동 이해를 요구하는 작업에서 인상적인 성능을 보여주었으나, 모델의 내부 프로세스에 대한 우리의 이해는 여전히 제한적입니다. 최근 희소 오토인코더 (Sparse Autoencoders, SAEs)가 VLM에 인코딩된 개념의 해석을 지원하는 유망한 도구로 부상했습니다. 그러나 대부분의 SAE 기반 접근 방식은 텍스트 또는 시각적 개념만을 개별적으로 다루며, 멀티모달 (multimodal) 개념은 무시합니다. 이러한 한계는 두 양식 (modalities)을 통합하는 개념이 잘못 분류될 수 있기 때문에 VLM에 대한 포괄적인 이해를 방해합니다. 더욱이, 기존의 시각적 접근 방식은 종종 모호하거나 불완전한 저품질의 시각적 개념 설명을 생성하여, 모델의 추론을 이해하는 데 유용성을 제한합니다. 우리는 VLM에서 시각적, 텍스트적, 그리고 멀티모달 개념을 추출하고 분석하기 위한 SAE 기반의 프레임워크를 제안합니다. 각 뉴런 (neuron)에 대해, 우리는 인간이 해석 가능한 후보 개념을 제안하고 코사인 유사도 (cosine similarity) 점수를 사용하여 개념과 데이터셋 샘플 간의 정렬 (alignment)을 계산합니다. VQA 데이터셋 (LLaVA-NeXT)에 대한 실험 결과, 우리의 프레임워크는 높은 텍스트 개념 품질을 유지하면서 기존 SAE 기반 방법들과 비교하여 시각적 개념 품질을 최대 45%까지 향상시키는 동시에 멀티모달 개념의 체계적인 식별을 가능하게 함을 입증했습니다. 본 연구는 VLM의 개념 공간에 대한 새로운 통찰력을 제공하며, 시각적, 텍스트적, 멀티모달 개념을 구분하는 구조화된 접근 방식을 제공합니다. 코드는 https://github.com/PHDLanza/Multidata_SAE 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

희소 오토인코더 (Sparse Autoencoders)를 통한 시각-언어 모델 (Vision Language Models) 내 멀티모달 개념의

요약

핵심 포인트

댓글