본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 20. 00:28

ByteDance, 단 3B 파라미터로 거의 모든 것을 수행하려는 오픈 소스 모델 출시

요약

ByteDance가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 수행할 수 있는 경량 멀티모달 모델인 Lance를 출시했습니다. 3B 규모의 활성 파라미터만을 사용하여 효율성을 극대화했으며, 128대의 A100 GPU를 활용해 처음부터 학습되었습니다.

핵심 포인트

  • 이미지 및 비디오의 이해, 생성, 편집을 지원하는 통합 멀티모달 모델
  • 3B 규모의 활성 파라미터로 높은 효율성과 강력한 벤치마크 성능 제공
  • 단계별 멀티태스크 레시피를 통한 처음부터 학습(Trained from scratch) 방식 채택
  • 128대의 A100 GPU를 사용하여 학습된 경량 모델

수정: 작동하는 링크 https://huggingface.co/bytedance-research/Lance

Lance는 단일 프레임워크 내에서 **이미지 및 비디오 이해(understanding), 생성(generation), 편집(editing)**을 지원하는 경량 네이티브 통합 멀티모달 모델(unified multimodal model)입니다.

  • 3B 규모에서의 효율성. 단 **3B의 활성 파라미터(active parameters)**만으로, Lance는 이미지 생성, 이미지 편집 및 비디오 생성 벤치마크 전반에서 강력한 성능을 제공합니다.
  • 처음부터 학습(Trained from scratch). Lance는 단계별 멀티태스크 레시피(staged multi-task recipe)로 구축되었으며, 128-A100-GPU 예산 내에서 완전히 처음부터 학습되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0