X요약2026. 06. 01. 19:43

KwaiKeye의 Keye VL 2.0-30B-A3B 모델 출시

요약

KwaiKeye가 30B 파라미터 규모의 오픈 소스 멀티모달 모델인 Keye VL 2.0-30B-A3B를 출시했습니다. DeepSeek Sparse Attention을 통해 256K 컨텍스트를 지원하며, 비디오 프레임이 늘어날수록 이해도가 향상되는 특징을 보입니다.

방금 Hugging Face에서 모델을 새로고침하다가, KwaiKeye가 Keye VL 2.0-30B-A3B를 출시한 것을 보았습니다.

이 멀티모달 (Multimodal) 모델은 총 파라미터(Parameter)가 30B이며, 활성 파라미터(Active Parameter)는 3B에 불과하며, Apache 2.0 라이선스로 완전히 오픈 소스화되었습니다.

이 모델은 DeepSeek Sparse Attention을 직접 사용하여 256K 컨텍스트 (Context)를 구현했습니다.

가장 흥미로운 점은 비디오 이해 (Video Understanding) 부분의 성능입니다.

모델에 더 많은 프레임 (Frame)을 입력할수록, 모델의 정확도가 오히려 꾸준히 상승합니다.

이는 긴 비디오가 모델을 혼란스럽게 만들 것이라고 생각했던 우리의 기존 직관과는 완전히 반대되는 결과입니다.

이 모델은 여러 긴 비디오 벤치마크 (Benchmark)에서 이미 Qwen3 VL, Gemini 3 Flash와 대등한 수준을 보여주고 있습니다.

이전에는 사람들이 멀티모달 모델이 컨텍스트가 길거나, 혹은 이해도가 깊거나 둘 중 하나만 가능하며 두 가지를 동시에 갖추기는 어렵다고 생각하곤 했습니다.

이제 KwaiKeye는 희소 주의 집중 (Sparse Attention) 메커니즘을 실제로 적용하여, 이 두 가지를 동시에 새로운 수준으로 끌어올렸습니다.

실제 효과가 어떠한지는 추후 실제 사례 (Case Study)를 통해 살펴보겠습니다.
[IMG:https://pbs.twimg.com/media/HJuB3q8aoAEfvMP.jpg]

AI 자동 생성 콘텐츠