MASER: Embodied 3D 공간 지능을 위한 양식 적응형 전문가 라우팅 (Modality-Adaptive Specialist
요약
MASER는 3D 환경에서 다양한 양식(RGB, 포인트 클라우드 등)을 처리하기 위해 질문에 따라 최적의 어댑터를 선택하는 경량 라우팅 프레임워크입니다. 단일 양식에 의존하는 기존 VLM의 한계를 극복하고, 질문의 의미론에 따라 최적의 전문가 어댑터를 호출합니다.
핵심 포인트
- 질문 기반의 양식 적응형 전문가 라우팅 프레임워크 제안
- 공유된 VLM 백본과 5가지 양식 어댑터 활용
- MLP 기반 신경망 라우팅 정책으로 최적 어댑터 선택
- Open3D-VQA 벤치마크에서 높은 오라클 일치율 달성
3D 환경에서 Embodied Agents(체화된 에이전트)는 자연어, RGB 이미지, 포인트 클라우드 (point clouds), 깊이 지도 (depth maps) 및 카메라 포즈 (camera poses)를 포함한 다양한 양식 (modalities)의 혼합을 통한 추론을 통해 공간적으로 관련된 질문에 답합니다. 기존의 시각-언어 모델 (Vision-Language models, VLMs)은 단일 양식에 대해 미세 조정 (fine-tuned)됩니다. 이는 미세 조정된 양식보다 다른 양식을 선호할 수 있는 질문의 의미론 (semantics)을 완전히 무시합니다. 이를 해결하기 위해, 우리는 공유된 VLM 백본 (backbone)의 다섯 가지 서로 다른 양식 어댑터 (modality adapters)를 학습시키고, 추론 중에 질문을 기반으로 최적의 어댑터를 선택하는 신경망 라우팅 정책 (neural routing policy)을 학습하는 경량 프레임워크인 MASER (Modality-Adaptive SpEcialist Routing)를 제안합니다. 우리는 각 질문을 동결된 문장 트랜스포머 (frozen sentence transformer)로 인코딩하고, 오라클 어댑터 정확도 (oracle adapter-accuracy) 레이블로 학습된 작은 다층 퍼셉트론 (Multi-layer Perceptron, MLP)을 통해 임베딩을 전달합니다. 우리는 Open3D-VQA 벤치마크를 통해 우리의 방법론을 평가하였으며, 평가 결과 단일 양식이 보편적으로 최적은 아니라는 것을 보여주었습니다. 즉, 포인트 클라우드 (point-cloud) 답변이 사례의 51.5%에서 가장 좋았습니다. MASER는 질문당 단 한 번의 어댑터 호출만으로 Random-Forest 절제 연구 (ablation, 43.5%)를 능가하는 51.3%의 오라클 일치율 (oracle agreement)로 라우팅합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기