본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 14. 06:11

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

요약

Ovis2.6-80B-A3B는 Multimodal Large Language Model (MLLM)의 최신 버전으로, Mixture-of-Experts (MoE) 아키텍처를 도입하여 낮은 서빙 비용으로 높은 성능을 구현했습니다. 이 모델은 64K 토큰 컨텍스트 창과 최대 2880×2880 해상도 지원을 통해 긴 문서 및 고해상도 이미지 처리에 탁월하며, 'Think with Image' 기능을 통해 능동적인 시각적 추론 능력을 갖추었습니다.

핵심 포인트

  • MoE 아키텍처를 적용하여 80B 파라미터 규모임에도 낮은 서빙 비용과 높은 처리량을 유지합니다. (활성 파라미터: 약 3B)
  • 컨텍스트 창을 64K 토큰으로 확장하고, 최대 2880×2880 해상도 이미지를 지원하여 고정보 밀도 시각적 입력을 처리할 수 있습니다.
  • 'Think with Image' 기능을 통해 모델이 추론 과정에서 능동적으로 이미지 영역을 재검토하고 분석하는 멀티턴 자기 성찰적 추론이 가능합니다.
  • OCR, 문서 이해, 차트/다이어그램 분석 등 구조화된 시각적 정보 추출 및 심층적인 추론 능력이 강화되었습니다.

우리는 Multimodal Large Language Models (MLLMs)인 Ovis 시리즈의 최신 발전 단계인 Ovis2.6-80B-A3B를 소개합니다. Ovis2.5의 강력한 토대 위에 구축된 Ovis2.6은 LLM 백본을 Mixture-of-Experts (MoE) 아키텍처로 업그레이드하여, 훨씬 적은 서빙 비용으로 탁월한 멀티모달 성능을 제공합니다. 또한 긴 문맥(long-context) 및 고해상도 이해, 능동적 이미지 분석을 통한 시각적 추론(visual reasoning), 그리고 정보 밀도가 높은 문서 이해 측면에서 주요한 개선을 이루어냈습니다.

주요 특징

  • MoE 아키텍처: 낮은 서빙 비용으로 구현하는 탁월한 성능 LLM 백본이 Mixture-of-Experts (MoE) 아키텍처로 업그레이드되었습니다. 이를 통해 Ovis2.6은 총 80B 파라미터까지 확장하여 방대한 지식과 미묘한 차이를 포착할 수 있습니다. 결정적으로, 추론(inference) 시에는 **약 3B의 활성 파라미터(active parameters)**만을 사용하여 낮은 서빙 비용과 높은 처리량(throughput)을 보장합니다.

  • 강화된 긴 시퀀스 및 고해상도 처리 Ovis2.6은 컨텍스트 윈도우(context window)를 64K 토큰으로 확장하고 최대 2880×2880 해상도의 이미지를 지원하여, 고해상도 및 정보 밀도가 높은 시각적 입력을 처리하는 능력을 크게 향상시켰습니다. 이러한 개선 사항은 모델이 여러 페이지에 흩어져 있는 단서들을 수집하고 종합하여 정답을 도출해야 하는 **긴 문서 질의응답(long-document question answering)**에 특히 효과적입니다.

  • 이미지로 생각하기 (Think with Image) 우리는 시각(vision)을 수동적인 입력에서 능동적인 인지 작업 공간으로 변환하는 "Think with Image" 기능을 도입했습니다. 추론 과정에서 모델은 사고 사슬(Chain-of-Thought) 내에서 시각적 도구(예: 크롭 및 회전)를 능동적으로 호출하여 이미지 영역을 재검토하고 분석할 수 있으며, 이를 통해 복잡한 작업에 대해 시각적 입력에 대한 멀티턴(multi-turn) 자기 성찰적 추론을 가능하게 하여 더 높은 정확도를 구현합니다.

  • 강화된 OCR, 문서 및 차트 능력 정보 밀도가 높은 시각적 작업에 대한 집중을 이어가며, 우리는 광학 문자 인식 (OCR), 문서 이해 (document understanding), 그리고 차트/다이어그램 분석 (chart/diagram analysis) 분야에서 모델의 능력을 더욱 강화했습니다. Ovis2.6은 시각적 데이터에서 구조화된 정보를 정확하게 추출할 뿐만 아니라, 추출된 내용에 대한 추론 (reasoning) 능력에서도 탁월한 성능을 발휘합니다.

이전에는 Marco-Mini-Instruct, Marco-Nano-Instruct, Marco-DeepResearch-8B, Ovis2.6-30B-A3B, 등을 출시한 바 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0