arXiv논문2026. 05. 26. 12:50

MuCRASP: 멀티모달 사고 사슬 (Chain-of-thought) 추론 인지형 구조적 가지치기 (Structured Pruning)

요약

VLM의 사고 사슬(CoT) 추론 능력을 보존하면서 모델 크기를 줄이는 새로운 구조적 가지치기 프레임워크 MuCRASP를 제안합니다. 기존 방식이 놓치던 피벗 토큰과 모달리티 간 활성화 분포 차이를 고려하여 높은 압축률에서도 추론 품질을 유지합니다.

핵심 포인트

CoT 추론의 핵심인 피벗 토큰과 교차 모달 정렬 보존
레이어별 민감도를 고려한 전역 파라미터 예산 최적화
Qwen2.5-VL-7B 모델에서 30% 가지치기 시 탁월한 성능 입증
최대 50% 압축 시에도 높은 추론 일관성 및 낮은 퍼플렉시티 유지

시각-언어 모델 (Vision-language models, VLMs)은 복잡한 멀티모달 (multimodal) 작업을 해결하기 위해 사고 사슬 (chain-of-thought, CoT) 추론에 점점 더 의존하고 있지만, 거대한 파라미터 (parameter) 크기로 인해 배포 비용이 많이 듭니다. 구조적 가지치기 (Structured pruning)는 자연스러운 해결책을 제공하지만, 기존 방식들은 VLM의 CoT 추론 정확도를 보존하는 데 실패합니다. 우리는 두 가지 주요 원인을 식별했습니다: (1) CoT 일관성은 생성 궤적 내의 희소한 전이 지점 (pivot tokens)에 의존하는 반면, 기존의 가지치기 방법들은 CoT를 인지하지 못한다는 점; (2) 단일 모달 대규모 언어 모델 (unimodal LLMs)을 위해 설계된 가지치기 방법들은 시각 및 텍스트 모달리티 간의 활성화 분포 (activation-distribution) 차이를 고려하지 않는다는 점입니다. 이러한 관찰에 착안하여, 우리는 전역 파라미터 예산 (global parameter budget) 하에서 레이어별 민감도 (layer-wise sensitivity)를 고려하고 교차 모달 정렬 (cross-modal alignment)을 보존하면서 추론에 중요한 구성 요소를 목표로 하는 구조적 가지치기 프레임워크인 MuCRASP를 제안합니다. 세 가지 추론 벤치마크에 걸친 네 가지 VLM에 대한 실험 결과, MuCRASP는 압축률이 증가함에 따라 추론 품질을 일관되게 보존함을 보여주었습니다. Qwen2.5-VL-7B 모델에 30% 가지치기를 적용했을 때, MuCRASP는 물리적 추론 (physical reasoning) 작업에서 가장 강력한 베이스라인의 LLM-as-a-Judge 점수인 7.32에 비해 8.87을 달성했습니다. 또한, MuCRASP는 최대 50% 가지치기까지 높은 추론 일관성을 유지하며, 더 낮은 퍼플렉시티 (perplexity) 저하를 보이면서 기존의 가지치기 접근 방식들을 크게 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MuCRASP: 멀티모달 사고 사슬 (Chain-of-thought) 추론 인지형 구조적 가지치기 (Structured Pruning)

요약

핵심 포인트

댓글