주간 멀티모달 AI 동향: 로컬 및 오픈소스 하이라이트
요약
본 글은 지난 한 주간의 주요 멀티모달(Multimodal) AI 개발 트렌드를 정리한 내용입니다. Moonshot Kimi K2.6은 1T/32B MoE 구조와 256K 컨텍스트를 자랑하며, HLE-Full 벤치마크에서 GPT-5.4나 Claude Opus 4.6을 능가하는 성능(54.0점)을 보여주었습니다. 또한, Alibaba Qwen3.6-35B-A3B는 Sparse MoE 구조와 262K 컨텍스트를 기반으로 SWE-Bench에서 높은 점수(73.4점)를 달성했습니다. Tencent의 HY-World 2.0은 오픈소스 3D가
핵심 포인트
- Moonshot Kimi K2.6: 1T/32B MoE 구조와 256K 컨텍스트를 갖추었으며, HLE-Full에서 GPT-5.4 및 Claude Opus 4.6을 능가하는 성능(54.0점)을 기록했습니다.
- Alibaba Qwen3.6-35B-A3B: Sparse MoE 구조와 262K 컨텍스트를 지원하며, SWE-Bench에서 73.4점을 달성하여 높은 코딩 능력을 입증했습니다.
- Tencent HY-World 2.0: 오픈소스 기반의 최초 3D 월드 모델로, Unity, Unreal 등 주요 엔진에 바로 적용 가능한 편집 가능한 메시(editable meshes), 3DGS, 포인트 클라우드를 출력합니다.
- Motif-Video 2B: 2B DiT를 활용한 오픈소스 비디오 생성 모델로, VBench Total에서 최고 기록을 세우며 기존 대비 파라미터 효율성을 입증했습니다.
최근 멀티모달 AI 분야의 주요 동향과 로컬/오픈소스 하이라이트를 정리합니다. 이번 주에는 대규모 언어 모델(LLM)의 성능 향상, 3D 콘텐츠 생성, 그리고 효율적인 아키텍처 설계가 두드러졌습니다.
1. 최고 수준의 LLM 경쟁: Kimi K2.6과 Qwen3.6-35B-A3B
- Moonshot Kimi K2.6: 1T/32B MoE (Mixture of Experts) 구조와 256K 컨텍스트 창을 기본으로 하며, 네이티브 INT4 지원과 400M MoonViT 비전 인코더를 탑재했습니다. 특히 Agent Swarm 기능(300개 서브 에이전트, 4,000단계 코디네이션)을 포함한 변형 모델은 HLE-Full 벤치마크에서 GPT-5.4나 Claude Opus 4.6 등 최신 상용 모델들을 앞지르는 54.0점을 기록하며 강력한 성능을 과시했습니다.
- Alibaba Qwen3.6-35B-A3B: Sparse MoE 구조를 채택하고 35B 중 3B의 활성 파라미터를 사용하는 효율적인 모델입니다. 기본적으로 멀티모달 기능을 지원하며, 컨텍스트 길이는 262K에서 YaRN을 통해 1.01M까지 확장 가능합니다. Apache 2.0 라이선스를 채택했으며, SWE-Bench Verified에서 73.4점, Terminal-Bench 2.0에서 51.5점을 기록하며 코딩 및 터미널 작업 능력을 입증했습니다.
2. 차세대 콘텐츠 생성: 3D와 비디오 모델의 발전
- Tencent HY-World 2.0: 오픈소스 기반 최초의 3D 월드 모델입니다. 이 모델은 편집 가능한 메시(editable meshes), 3D Gaussian Splatting (3DGS), 포인트 클라우드를 출력하며, 이를 Unity, Unreal Engine, Blender, Isaac Sim 등 주요 개발 환경에 바로 통합할 수 있도록 설계되었습니다. WorldMirror 2.0 컴포넌트가 먼저 공개되었으며, 약 1.2B 파라미터와 BF16 정밀도를 사용합니다.
- Motif-Video 2B: 오픈소스 DiT (Diffusion Transformer) 기반의 비디오 생성 모델입니다. 2B 규모로 720p 해상도에서 121프레임까지 지원하며, T2V(Text-to-Video)와 I2V(Image-to-Video)에 단일 체크포인트를 사용합니다. VBench Total 점수에서 오픈소스 최고 기록을 달성했으며, 기존의 Wan2.1-14B 모델 대비 7배 적은 파라미터로 높은 효율성을 보여주었습니다.
- AniGen (VAST-AI): 단일 이미지를 완전히 리깅된(fully rigged) 3D 캐릭터로 변환하는 기술입니다. 형태(shape), 스켈레톤, 스키닝을 S³ Fields 형태로 공동 생성하여 실제 지오메트리와 일치하는 리깅이 가능합니다.
3. 통합 프레임워크 및 워크플로우 개선
- VLA Foundry (Toyota Research Institute): LLM(Large Language Model), VLM(Vision-Language Model), 그리고 VLA(Vision-Language-Action) 학습을 하나의 코드베이스에서 통합하는 오픈소스 프레임워크를 제공합니다. 이를 통해 Qwen3-VL 2B 기반의 모델이 TRI가 이전에 사용하던 폐쇄형 LBM 정책보다 20점 이상 높은 성능을 달성했습니다.
- 기타 개선 사항: 이번 주에는 Comfy Canvas v1.0, Trellis.2를 8GB GPU에 맞게 최적화한 버전 등 다양한 사용자 친화적인 도구와 워크플로우 업데이트도 활발하게 이루어졌습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기