이번 주가 끝나기 전, 모든 모달리티에 걸쳐 25개 이상의 주목할 만한 오픈 웨이트 (open-weight) 출시가 있었던 OpenAI 역사상
요약
이번 주 25개 이상의 주목할 만한 오픈 웨이트 모델이 출시되며 AI 기술의 급격한 발전을 보여주었습니다. LLM, 이미지 생성, 오디오, 비전, 비디오 등 모든 모달리티에서 혁신적인 모델들이 공개되었습니다.
핵심 포인트
- NVIDIA Nemotron 3 Ultra: 550B 규모의 강력한 하이브리드 Mamba-MoE 모델 출시
- Google Gemma 4 12B: 텍스트/이미지/오디오/비디오를 지원하는 완전 개방형 모델
- Ideogram 4: 텍스트 표현력이 뛰어난 사상 첫 오픈 웨이트 이미지 생성 모델
- 다양한 모달리티: 오디오 TTS, 실시간 음악 생성, 물리적 AI를 위한 월드 모델 등 출시
이번 주가 끝나기 전, 모든 모달리티 (modality)에 걸쳐 25개 이상의 주목할 만한 오픈 웨이트 (open-weight) 출시가 있었던 OpenAI 역사상 가장 미친 한 주 중 하나였음을 인정해 봅시다:
🧠 LLMs (대규모 언어 모델)
→ NVIDIA Nemotron 3 Ultra: 550B 하이브리드 Mamba-MoE, 활성 파라미터 55B, 1M 컨텍스트 (context), MMLU 89.1. NVFP4 변형 모델은 Blackwell에서 약 5배의 처리량 (throughput)을 주장함. 프런티어 폐쇄형 모델과의 격차를 줄이는 최초의 오픈 웨이트 (open-weighted) 550B 하이브리드 Mamba-Transformer.
→ Google Gemma 4 12B: 완전 개방형 밀집 (dense) any-to-any (텍스트/이미지/오디오/비디오), 256k 컨텍스트 (context), 인코더 프리 (encoder-free), 140개 이상의 언어, AIME 2026 점수 77.5. 23개의 체크포인트 QAT 웨이브 (mobile ONNX + MLX)와 함께 출시됨. 이번 주 가장 배포 가능한 모델.
→ StepFun Step-3.7-Flash: 198B 희소 MoE (sparse MoE) VLM, 활성 파라미터 약 11B, SWE-Bench PRO 56.3. Apache 2.0.
→ Liquid AI LFM2.5-8B-A1B: 엣지 (edge) MoE, 활성 파라미터 단 1.5B, 128k 컨텍스트 (ctx), MATH500 88.8, MLX 지원. 이번 주 최고의 온디바이스 (on-device) 옵션.
→ JetBrains Mellum2-12B-A2.5B-Thinking: 그들의 첫 번째 오픈 MoE, 2.5B 활성 파라미터로 Qwen3-14B에 근접한 코딩 성능. Apache 2.0.
🎨 이미지 생성 (이번 주의 깜짝 뉴스)
→ Ideogram 4: 그들의 '사상 첫' 오픈 웨이트 (open weights). 처음부터 학습된 9.3B 플로우 매칭 (flow-matching) DiT. GPT Image 2에 이어 전체 2위, Design Arena + LMArena에서 최고의 오픈 웨이트 (open-weight) 모델. 텍스트가 풍부한 이미지에 있어 단연 가장 강력한 오픈 체크포인트. 미적 감각이 있음. 이것이 오픈 웨이트 (open weights)라는 것이 여전히 믿기지 않음.
🔊 오디오 및 음성 (오픈 TTS의 돌파구가 된 한 주, 4개의 연구소 출시)
→ Boson Higgs Audio v3 4B: 102개 언어, 21개 감정, 노래/속삭임/외침, 1초 미만의 TTFA (첫 토큰 생성 시간).
→ RedNote dots.tts: 유일한 완전 연속형 (코덱 없는) 오픈 TTS 파이프라인, Apache 2.0.
→ Google Magenta RealTime 2: 실시간 음악 생성, 200ms 미만의 지연 시간 (latency), 텍스트+오디오+MIDI. multimodalart가 몇 시간 만에 PyTorch로 포팅하여 실시간 ZeroGPU 데모를 선보임.
→ NVIDIA Nemotron-3.5 ASR: 600M 스트리밍, Parakeet RNNT 1.1B 대비 17배 더 많은 동시 스트림.
👁️ 비전 및 VLMs (시각 및 시각-언어 모델)
→ PaddleOCR-VL-1.6: 1B 파라미터 규모에서 SOTA (최고 수준) 문서 파싱, Apache 2.0.
→ Baidu NAVA: 6.3B 결합 오디오-비디오 생성, 동급 최고의 A/V 동기화, Apache 2.0.
🎬 비디오, 3D 및 월드 모델 (Video, 3D & World Models)
→ NVIDIA Cosmos3-Super: 물리적 AI (Physical AI)를 위해 행동 궤적 (action trajectories)을 비디오+오디오 생성과 결합한 64B 옴니모달 (omnimodal) 월드 모델 (world model).
→ JD JoyAI-Echo: LTX-2.3 기반의 최대 5분 길이 멀티샷 텍스트-투-비디오 (text-to-video).
→ ByteDance Bernini-R + VAST TripoSplat (단일 이미지를 3D 가우시안 스플래팅 (Gaussian splats)으로 변환, MIT).
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기