poolside/Laguna-M.1 · Hugging Face - 225B-A23B - Insights | Molayo

Laguna M.1
Laguna M.1은 에이전트 기반 코딩 (agentic coding) 및 장기 작업 (long-horizon work)을 위해 설계된, 토큰당 23B의 활성화 파라미터 (activated parameters)를 가진 총 225B 파라미터의 전문가 혼합 (Mixture-of-Experts, MoE) 모델입니다.
주요 특징 (Highlights)

에이전트 기반 코딩을 위한 대규모 희소 MoE (Large sparse MoE): Laguna M.1은 총 225B 파라미터와 토큰당 23B의 활성화 파라미터를 가진 70개 레이어의 MoE 트랜스포머 (transformer)입니다.
고용량 전문가 라우팅 (High-capacity expert routing): 3개의 밀집 SwiGLU (dense SwiGLU) 레이어 이후, Laguna M.1은 256개의 전문가, top-k=16 라우팅 및 보조 손실 없는 부하 분산 (auxiliary-loss-free load balancing)을 갖춘 67개의 희소 MoE (sparse MoE) 레이어를 사용합니다.
글로벌 어텐션 아키텍처 (Global attention architecture): Laguna M.1은 64개의 Q-heads, 8개의 KV-heads 및 softplus 어텐션 출력 게이팅 (softplus attention output gating)을 통해 모든 레이어에서 글로벌 어텐션 (global attention)을 사용합니다.
네이티브 추론 지원 (Native reasoning support): 도구 호출 (tool calls) 사이의 교차 사고 (interleaved thinking)를 지원하며, 요청당 사고 (thinking) 활성화 및 비활성화가 가능합니다.
강력한 에이전트 벤치마크 성능 (Strong agentic benchmark performance): Laguna M.1은 SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro 및 Terminal-Bench 2.0에서 최첨단 오픈 웨이트 (open-weight) 및 프런티어 (frontier) 모델들과 경쟁할 만한 성능을 보여줍니다.
Apache 2.0 라이선스 (Apache 2.0 license): 상업적 및 비상업적 목적으로 자유롭게 사용 및 수정이 가능합니다.

모델 개요 (Model overview)

학습 (Training): 사전 학습 (pre-training), 사후 학습 (post-training) 및 강화 학습 (reinforcement learning) 단계
파라미터 수 (Number of parameters): 총 225B, 토큰당 23B 활성화
옵티마이저 (Optimizer): Muon
레이어 (Layers): 글로벌 어텐션 (global attention)을 포함한 70개 레이어
전문가 (Experts): 1개의 공유 전문가를 포함한 256개 전문가; top-k=16 라우팅
밀집 레이어 (Dense layers): 처음 3개 레이어는 밀집 SwiGLU; 나머지 67개 레이어는 희소 MoE (sparse MoE)
어텐션 (Attention): 64 Q-heads, 8 KV-heads, 헤드 차원 (head dimension) 128, softplus 어텐션 출력 게이팅 (softplus attention output gating) 포함
위치 인코딩 (Positional encoding): YaRN을 적용한 RoPE
모달리티 (Modality): 텍스트-투-텍스트 (text-to-text)
컨텍스트 윈도우 (Context window): 262,144 토큰
추론 지원 (Reasoning support): 보존된 사고 (preserved thinking)를 포함한 교차 사고 (interleaved thinking)

모델 파라미터 | SWE-bench Verified | SWE-bench Multilingual | SWE-bench Pro (Public Dataset) | Terminal-Bench 2.0

Laguna M.1 225B-A23B 74.6% 63.1% 49.2% 45.8%
Devstral 2 123B dense 72.2% 61.3% - 32.6%
GLM-4.7 355B-A32B 73.8% 66.7% - 41.0%
DeepSeek-V4 Flash 284B-A13B 79.0% 73.3% 52.6% 56.9%

Qwen3.5-397B-A17B 397B-A17B 76.2% 69.3% 50.9% 52.5%
Claude Sonnet 4.6 - 79.6% - - 59.1%

submitted by    /u/pmttyji

[link] [comments]

Insights

poolside/Laguna-M.1 · Hugging Face - 225B-A23B

요약

핵심 포인트

댓글

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어

2026년 최고의 Suno 프롬프트 생성기 비교

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어

2026년 최고의 Suno 프롬프트 생성기 비교