Lance: 다중 작업 시너지(Multi-Task Synergy)를 통한 통합 멀티모달 모델링
요약
Lance는 이미지와 비디오에 대해 이해, 생성, 편집을 동시에 지원하는 경량 네이티브 통합 멀티모달 모델입니다. 모델 크기를 키우는 대신 다중 작업 학습과 이중 스트림 MoE 아키텍처를 통해 이해와 생성 능력을 조화롭게 통합했습니다. 실험 결과, 기존 오픈 소스 모델 대비 뛰어난 시각적 생성 성능과 강력한 멀티모달 이해 능력을 입증했습니다.
핵심 포인트
- 통합 컨텍스트 모델링과 분리된 능력 경로(Decoupled Capability Pathways) 원칙 적용
- 이중 스트림 Mixture-of-Experts(MoE) 아키텍처를 통한 이해와 생성 경로 분리
- 양식 인식 회전 위치 인코딩(Modality-aware Rotary Positional Encoding) 도입으로 시각적 토큰 간 간섭 완화
- 능력 지향적 목적 함수와 적응형 데이터 스케줄링을 활용한 단계별 다중 작업 학습
- 이미지 및 비디오 생성 분야에서 기존 오픈 소스 통합 모델을 능가하는 성능
우리는 이미지와 비디오 모두에 대해 멀티모달 이해(Multimodal Understanding), 생성(Generation), 편집(Editing)을 지원하는 경량 네이티브 통합 모델인 Lance를 선보입니다. Lance는 모델 용량 확장(Scaling)이나 텍스트-이미지 중심의 설계에 의존하는 대신, 협력적인 다중 작업 학습(Multi-task Training)을 통해 통합 멀티모달 모델링을 위한 실용적인 패러다임을 탐구합니다. 이는 통합 컨텍스트 모델링(Unified Context Modeling)과 분리된 능력 경로(Decoupled Capability Pathways)라는 두 가지 핵심 원칙에 기반합니다. 구체적으로, Lance는 처음부터(From scratch) 학습되며, 공유된 인터리브(Interleaved) 멀티모달 시퀀스 상에서 이중 스트림 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 채택하여, 이해와 생성의 경로를 분리하는 동시에 공동의 컨텍스트 학습을 가능하게 합니다. 또한, 이질적인 시각적 토큰(Visual Tokens) 간의 간섭을 완화하고 교차 작업 정렬(Cross-task Alignment)을 높이기 위해 양식 인식 회전 위치 인코딩(Modality-aware Rotary Positional Encoding)을 도입했습니다. 학습 과정에서 Lance는 능력 지향적 목적 함수(Capability-oriented Objectives)와 적응형 데이터 스케줄링(Adaptive Data Scheduling)을 갖춘 단계별 다중 작업 학습 패러다임을 채택하여, 의미론적 이해(Semantic Comprehension)와 시각적 생성(Visual Generation) 성능을 모두 강화합니다. 실험 결과, Lance는 강력한 멀티모달 이해 능력을 유지하면서도 이미지 및 비디오 생성 측면에서 기존의 오픈 소스 통합 모델들을 실질적으로 능가함을 입증했습니다. 홈페이지는 https://lance-project.github.io 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기