
KwaiKeye의 Keye VL 2.0-30B-A3B 모델 출시
요약
KwaiKeye가 30B 파라미터 규모의 오픈 소스 멀티모달 모델인 Keye VL 2.0-30B-A3B를 출시했습니다. DeepSeek Sparse Attention을 통해 256K 컨텍스트를 지원하며, 비디오 프레임이 늘어날수록 이해도가 향상되는 특징을 보입니다.
핵심 포인트
- 30B 파라미터 중 3B만 활성화되는 효율적 구조
- DeepSeek Sparse Attention 적용으로 256K 컨텍스트 구현
- 비디오 프레임 증가 시 모델 정확도가 상승하는 특성
- Qwen3 VL, Gemini 3 Flash와 대등한 벤치마크 성능
방금 Hugging Face에서 모델을 새로고침하다가, KwaiKeye가 Keye VL 2.0-30B-A3B를 출시한 것을 보았습니다.
이 멀티모달 (Multimodal) 모델은 총 파라미터(Parameter)가 30B이며, 활성 파라미터(Active Parameter)는 3B에 불과하며, Apache 2.0 라이선스로 완전히 오픈 소스화되었습니다.
이 모델은 DeepSeek Sparse Attention을 직접 사용하여 256K 컨텍스트 (Context)를 구현했습니다.
가장 흥미로운 점은 비디오 이해 (Video Understanding) 부분의 성능입니다.
모델에 더 많은 프레임 (Frame)을 입력할수록, 모델의 정확도가 오히려 꾸준히 상승합니다.
이는 긴 비디오가 모델을 혼란스럽게 만들 것이라고 생각했던 우리의 기존 직관과는 완전히 반대되는 결과입니다.
이 모델은 여러 긴 비디오 벤치마크 (Benchmark)에서 이미 Qwen3 VL, Gemini 3 Flash와 대등한 수준을 보여주고 있습니다.
이전에는 사람들이 멀티모달 모델이 컨텍스트가 길거나, 혹은 이해도가 깊거나 둘 중 하나만 가능하며 두 가지를 동시에 갖추기는 어렵다고 생각하곤 했습니다.
이제 KwaiKeye는 희소 주의 집중 (Sparse Attention) 메커니즘을 실제로 적용하여, 이 두 가지를 동시에 새로운 수준으로 끌어올렸습니다.
실제 효과가 어떠한지는 추후 실제 사례 (Case Study)를 통해 살펴보겠습니다.
[IMG:https://pbs.twimg.com/media/HJuB3q8aoAEfvMP.jpg]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @berryxia (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기