arXiv논문2026. 06. 02. 13:07

MASER: Embodied 3D 공간 지능을 위한 양식 적응형 전문가 라우팅 (Modality-Adaptive Specialist

요약

MASER는 3D 환경에서 다양한 양식(RGB, 포인트 클라우드 등)을 처리하기 위해 질문에 따라 최적의 어댑터를 선택하는 경량 라우팅 프레임워크입니다. 단일 양식에 의존하는 기존 VLM의 한계를 극복하고, 질문의 의미론에 따라 최적의 전문가 어댑터를 호출합니다.

핵심 포인트

질문 기반의 양식 적응형 전문가 라우팅 프레임워크 제안
공유된 VLM 백본과 5가지 양식 어댑터 활용
MLP 기반 신경망 라우팅 정책으로 최적 어댑터 선택
Open3D-VQA 벤치마크에서 높은 오라클 일치율 달성

3D 환경에서 Embodied Agents(체화된 에이전트)는 자연어, RGB 이미지, 포인트 클라우드 (point clouds), 깊이 지도 (depth maps) 및 카메라 포즈 (camera poses)를 포함한 다양한 양식 (modalities)의 혼합을 통한 추론을 통해 공간적으로 관련된 질문에 답합니다. 기존의 시각-언어 모델 (Vision-Language models, VLMs)은 단일 양식에 대해 미세 조정 (fine-tuned)됩니다. 이는 미세 조정된 양식보다 다른 양식을 선호할 수 있는 질문의 의미론 (semantics)을 완전히 무시합니다. 이를 해결하기 위해, 우리는 공유된 VLM 백본 (backbone)의 다섯 가지 서로 다른 양식 어댑터 (modality adapters)를 학습시키고, 추론 중에 질문을 기반으로 최적의 어댑터를 선택하는 신경망 라우팅 정책 (neural routing policy)을 학습하는 경량 프레임워크인 MASER (Modality-Adaptive SpEcialist Routing)를 제안합니다. 우리는 각 질문을 동결된 문장 트랜스포머 (frozen sentence transformer)로 인코딩하고, 오라클 어댑터 정확도 (oracle adapter-accuracy) 레이블로 학습된 작은 다층 퍼셉트론 (Multi-layer Perceptron, MLP)을 통해 임베딩을 전달합니다. 우리는 Open3D-VQA 벤치마크를 통해 우리의 방법론을 평가하였으며, 평가 결과 단일 양식이 보편적으로 최적은 아니라는 것을 보여주었습니다. 즉, 포인트 클라우드 (point-cloud) 답변이 사례의 51.5%에서 가장 좋았습니다. MASER는 질문당 단 한 번의 어댑터 호출만으로 Random-Forest 절제 연구 (ablation, 43.5%)를 능가하는 51.3%의 오라클 일치율 (oracle agreement)로 라우팅합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MASER: Embodied 3D 공간 지능을 위한 양식 적응형 전문가 라우팅 (Modality-Adaptive Specialist

요약

핵심 포인트

댓글