X요약2026. 06. 06. 13:06

이번 주가 끝나기 전, 모든 모달리티에 걸쳐 25개 이상의 주목할 만한 오픈 웨이트 (open-weight) 출시가 있었던 OpenAI 역사상

요약

이번 주 25개 이상의 주목할 만한 오픈 웨이트 모델이 출시되며 AI 기술의 급격한 발전을 보여주었습니다. LLM, 이미지 생성, 오디오, 비전, 비디오 등 모든 모달리티에서 혁신적인 모델들이 공개되었습니다.

핵심 포인트

NVIDIA Nemotron 3 Ultra: 550B 규모의 강력한 하이브리드 Mamba-MoE 모델 출시
Google Gemma 4 12B: 텍스트/이미지/오디오/비디오를 지원하는 완전 개방형 모델
Ideogram 4: 텍스트 표현력이 뛰어난 사상 첫 오픈 웨이트 이미지 생성 모델
다양한 모달리티: 오디오 TTS, 실시간 음악 생성, 물리적 AI를 위한 월드 모델 등 출시

이번 주가 끝나기 전, 모든 모달리티 (modality)에 걸쳐 25개 이상의 주목할 만한 오픈 웨이트 (open-weight) 출시가 있었던 OpenAI 역사상 가장 미친 한 주 중 하나였음을 인정해 봅시다:

🧠 LLMs (대규모 언어 모델)

→ NVIDIA Nemotron 3 Ultra: 550B 하이브리드 Mamba-MoE, 활성 파라미터 55B, 1M 컨텍스트 (context), MMLU 89.1. NVFP4 변형 모델은 Blackwell에서 약 5배의 처리량 (throughput)을 주장함. 프런티어 폐쇄형 모델과의 격차를 줄이는 최초의 오픈 웨이트 (open-weighted) 550B 하이브리드 Mamba-Transformer.

→ Google Gemma 4 12B: 완전 개방형 밀집 (dense) any-to-any (텍스트/이미지/오디오/비디오), 256k 컨텍스트 (context), 인코더 프리 (encoder-free), 140개 이상의 언어, AIME 2026 점수 77.5. 23개의 체크포인트 QAT 웨이브 (mobile ONNX + MLX)와 함께 출시됨. 이번 주 가장 배포 가능한 모델.

→ StepFun Step-3.7-Flash: 198B 희소 MoE (sparse MoE) VLM, 활성 파라미터 약 11B, SWE-Bench PRO 56.3. Apache 2.0.

→ Liquid AI LFM2.5-8B-A1B: 엣지 (edge) MoE, 활성 파라미터 단 1.5B, 128k 컨텍스트 (ctx), MATH500 88.8, MLX 지원. 이번 주 최고의 온디바이스 (on-device) 옵션.

→ JetBrains Mellum2-12B-A2.5B-Thinking: 그들의 첫 번째 오픈 MoE, 2.5B 활성 파라미터로 Qwen3-14B에 근접한 코딩 성능. Apache 2.0.

🎨 이미지 생성 (이번 주의 깜짝 뉴스)

→ Ideogram 4: 그들의 '사상 첫' 오픈 웨이트 (open weights). 처음부터 학습된 9.3B 플로우 매칭 (flow-matching) DiT. GPT Image 2에 이어 전체 2위, Design Arena + LMArena에서 최고의 오픈 웨이트 (open-weight) 모델. 텍스트가 풍부한 이미지에 있어 단연 가장 강력한 오픈 체크포인트. 미적 감각이 있음. 이것이 오픈 웨이트 (open weights)라는 것이 여전히 믿기지 않음.

🔊 오디오 및 음성 (오픈 TTS의 돌파구가 된 한 주, 4개의 연구소 출시)

→ Boson Higgs Audio v3 4B: 102개 언어, 21개 감정, 노래/속삭임/외침, 1초 미만의 TTFA (첫 토큰 생성 시간).
→ RedNote dots.tts: 유일한 완전 연속형 (코덱 없는) 오픈 TTS 파이프라인, Apache 2.0.
→ Google Magenta RealTime 2: 실시간 음악 생성, 200ms 미만의 지연 시간 (latency), 텍스트+오디오+MIDI. multimodalart가 몇 시간 만에 PyTorch로 포팅하여 실시간 ZeroGPU 데모를 선보임.
→ NVIDIA Nemotron-3.5 ASR: 600M 스트리밍, Parakeet RNNT 1.1B 대비 17배 더 많은 동시 스트림.

👁️ 비전 및 VLMs (시각 및 시각-언어 모델)

→ PaddleOCR-VL-1.6: 1B 파라미터 규모에서 SOTA (최고 수준) 문서 파싱, Apache 2.0.
→ Baidu NAVA: 6.3B 결합 오디오-비디오 생성, 동급 최고의 A/V 동기화, Apache 2.0.

🎬 비디오, 3D 및 월드 모델 (Video, 3D & World Models)

→ NVIDIA Cosmos3-Super: 물리적 AI (Physical AI)를 위해 행동 궤적 (action trajectories)을 비디오+오디오 생성과 결합한 64B 옴니모달 (omnimodal) 월드 모델 (world model).
→ JD JoyAI-Echo: LTX-2.3 기반의 최대 5분 길이 멀티샷 텍스트-투-비디오 (text-to-video).
→ ByteDance Bernini-R + VAST TripoSplat (단일 이미지를 3D 가우시안 스플래팅 (Gaussian splats)으로 변환, MIT).

AI 자동 생성 콘텐츠

원문 바로가기

이번 주가 끝나기 전, 모든 모달리티에 걸쳐 25개 이상의 주목할 만한 오픈 웨이트 (open-weight) 출시가 있었던 OpenAI 역사상

요약

핵심 포인트

댓글