본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 18. 19:07

Kwai-Keye/Keye-VL-2.0-30B-A3B-GGUF · Hugging Face

요약

Keye-VL-2.0-30B-A3B는 긴 영상 이해와 에이전트 역량에 특화된 30B급 플래그십 멀티모달 베이스 모델입니다. DSA 아키텍처를 통해 256K 초장기 문맥에서도 효율적이고 정확한 추론을 제공하며, 영상 벤치마크에서 Gemini-3-Flash와 대등한 성능을 보여줍니다.

핵심 포인트

  • DSA 네이티브 아키텍처로 256K 초장기 문맥 지원
  • 탁월한 영상 이해 및 시간적 지역화(Temporal Localization) 성능
  • 코드, 도구, 검색 기능을 갖춘 에이전트 역량 내장
  • 고효율 추론을 위한 커스텀 커널 및 최적화 스택 적용
  • 환각을 줄이고 의사결정을 안정화하는 강력한 사후 학습

Keye-VL-2.0-30B-A3B를 소개합니다 — Keye 시리즈의 최신 30B급 플래그십 베이스 모델(base model)로, 긴 영상 이해(long-video understanding)의 한계를 넓히고 Keye 제품군에서 1세대 에이전트(Agent) 역량을 구현하기 위해 특수 제작되었습니다.

주요 특징

  • 탁월한 영상 이해 및 시간적 지역화 (Temporal Localization): 5개의 영상 벤치마크 전반에 걸쳐 Keye-VL-2.0-30B-A3B는 오픈 소스 경쟁 모델들을 선도하며, 시간적 접지(temporal grounding) 측면에서 Gemini-3-Flash와 대등하거나 이를 능가합니다.
  • DSA 네이티브 긴 문맥 아키텍처 (DSA-Native Long-Context Architecture): 희소 주의 집중(Sparse attention) 및 타겟팅된 특징 집계(feature aggregation)를 통해 계산 효율성을 유지하면서도 정확한 시간 단위의 영상 이해를 가능하게 합니다.
  • 고효율 추론 및 학습 스택: DSA (DeepSeek Sparse Attention), ExtraIO, 이기종 ViT-LM 병렬화(heterogeneous ViT-LM parallelism), 활성화 최적화(activation optimization) 및 커스텀 커널(custom kernels)을 통해 긴 시퀀스의 프리필(prefill) 비용을 줄이고 학습 처리량(throughput)을 높입니다.
  • 데이터 중심 멀티모달 사전 학습 (Data-Centric Multimodal Pre-Training): 정교하게 큐레이션된 데이터 파이프라인, Keye-VL-1.5 비전 인코더(vision encoder), 그리고 합성된 CoT(Chain-of-Thought) 데이터를 통해 인지 능력, OCR/차트/표 이해 및 추론 연속성을 강화했습니다.
  • 신뢰할 수 있는 추론을 위한 강력한 사후 학습 (Robust Post-Training): MOPD, 버킷 이점 스케일링(bucket advantage scaling), Context-RL, 그리고 높은 SNR 데이터 필터링을 통해 교차 모달 전문가 병합(cross-modal expert merging)을 개선하고, 환각(hallucinations)을 줄이며, 긴 문맥에서의 의사결정을 안정화합니다.
  • 에이전트 준비 완료된 멀티모달 역량: 내장된 코드(Code), 도구(Tool), 검색(Search) 에이전트 능력을 통해 저장소 작업, API 스타일의 도구 사용, 웹 기반 검색 및 시각적 자기 수정(visual self-correction) 워크플로우를 지원합니다.

생산 환경에 DSA를 도입한 최초의 멀티모달 모델로서, Keye-VL-2.0-30B-A3B는 256K 초장기 문맥(ultra-long context)에 대해 거의 손실 없는 추론을 제공합니다. 이 모델은 해당 규모에서 영상 이해 벤치마크의 정점에 있으며, 세밀한 시간적 인지(temporal perception) 측면에서 최고 수준의 폐쇄형 소스(closed-source) 모델들과 지속적으로 경쟁하거나 이를 능가합니다. 더 중요한 점은, 이 모델이 내장된 에이전트 협업 메커니즘을 탑재한 최초의 Keye 베이스 모델이라는 것이며, 검색, 도구 및 코드 시나리오에서 견고한 시스템 수준의 오케스트레이션(orchestration)을 입증합니다.

제출자: /u/jacek2023
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0