arXiv논문2026. 06. 02. 10:13

MLLM-Microscope: 멀티모달 거대 언어 모델(MLLM) 내부의 숨겨진 구조 규명

요약

MLLM-Microscope라는 새로운 시스템을 통해 MLLM 내부의 숨겨진 표현을 분석한 연구입니다. LLaVA-NeXT와 OmniFusion 모델을 대상으로 토큰 임베딩의 선형성, 고유 차원, 이방성을 평가하여 모델 간 차이를 규명했습니다.

핵심 포인트

MLLM-Microscope 시스템을 통한 내부 표현 분석
트랜스포머 레이어 전반에서 토큰의 높은 선형성 확인
OmniFusion이 LLaVA-NeXT보다 높은 이미지 토큰 차원 유지
모델의 내부 작동 방식이 모달리티 융합 특성에 의존함

본 연구는 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs) 내부의 숨겨진 표현 (hidden representations)을 분석하기 위해 설계된 새로운 시스템인 MLLM-Microscope를 제시합니다. 우리의 시스템은 트랜스포머 레이어 (transformer layers) 전반에 걸쳐 멀티모달 토큰 임베딩 (multimodal token embeddings)의 선형성 (linearity), 고유 차원 (intrinsic dimension), 그리고 이방성 (anisotropy)을 평가합니다. ScienceQA 데이터셋을 활용하여, 우리는 최첨단 MLLM인 LLaVA-NeXT와 OmniFusion 두 가지 모델을 평가합니다. 연구 결과, 두 모달리티 (modalities)의 토큰에 대한 메인 스트림 (main stream)과 잔차 스트림 (residual stream) 모두 트랜스포머 레이어 전반에 걸쳐 매우 선형적인 동작을 보임을 발견했습니다. 그러나 LLaVA-NeXT의 이미지 토큰은 선형성이 약간 감소하는 양상을 보이는 반면, OmniFusion은 일관되게 유지됩니다. OmniFusion의 이미지 토큰 차원 (image token dimensions)은 LLaVA-NeXT와 비교했을 때 레이어를 거치며 지속적으로 더 높게 유지됩니다. 또한, OmniFusion의 이방성 (anisotropy)은 레이어 전반에 걸쳐 지속적으로 낮게 유지되는 것이 관찰되었습니다. 이러한 발견은 MLLM의 내부 작동 방식이 토큰 시퀀스 (token sequence)를 LLM으로 전달하기 전에 수행되는 모달리티 융합 (modality fusion)의 특성에 크게 의존함을 시사합니다. 본 시스템을 통해 얻을 수 있는 이러한 통찰과 기타 새로운 잠재적 통찰들은 MLLM의 내부 작동 방식에 대한 이해를 높이고, 향후 모델 설계 및 최적화에 정보를 제공할 수 있을 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

MLLM-Microscope: 멀티모달 거대 언어 모델(MLLM) 내부의 숨겨진 구조 규명

요약

핵심 포인트

댓글