본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 19. 01:37

poolside/Laguna-M.1 · Hugging Face - 225B-A23B

요약

Laguna-M.1은 에이전트 기반 코딩과 장기 작업을 위해 설계된 225B 규모의 MoE 모델입니다. 256개의 전문가를 활용한 고용량 라우팅과 글로벌 어텐션 아키텍처를 통해 강력한 코딩 에이전트 성능을 제공합니다.

핵심 포인트

  • 총 225B 파라미터 중 토큰당 23B를 활성화하는 MoE 구조
  • 256개의 전문가와 top-k=16 라우팅을 통한 고성능 구현
  • 도구 호출 간 교차 사고(interleaved thinking) 지원
  • SWE-bench 등 주요 에이전트 벤치마크에서 최첨단 성능 입증
  • Apache 2.0 라이선스로 상업적 이용 가능

Laguna M.1
Laguna M.1은 에이전트 기반 코딩 (agentic coding) 및 장기 작업 (long-horizon work)을 위해 설계된, 토큰당 23B의 활성화 파라미터 (activated parameters)를 가진 총 225B 파라미터의 전문가 혼합 (Mixture-of-Experts, MoE) 모델입니다.
주요 특징 (Highlights)

에이전트 기반 코딩을 위한 대규모 희소 MoE (Large sparse MoE): Laguna M.1은 총 225B 파라미터와 토큰당 23B의 활성화 파라미터를 가진 70개 레이어의 MoE 트랜스포머 (transformer)입니다.
고용량 전문가 라우팅 (High-capacity expert routing): 3개의 밀집 SwiGLU (dense SwiGLU) 레이어 이후, Laguna M.1은 256개의 전문가, top-k=16 라우팅 및 보조 손실 없는 부하 분산 (auxiliary-loss-free load balancing)을 갖춘 67개의 희소 MoE (sparse MoE) 레이어를 사용합니다.
글로벌 어텐션 아키텍처 (Global attention architecture): Laguna M.1은 64개의 Q-heads, 8개의 KV-heads 및 softplus 어텐션 출력 게이팅 (softplus attention output gating)을 통해 모든 레이어에서 글로벌 어텐션 (global attention)을 사용합니다.
네이티브 추론 지원 (Native reasoning support): 도구 호출 (tool calls) 사이의 교차 사고 (interleaved thinking)를 지원하며, 요청당 사고 (thinking) 활성화 및 비활성화가 가능합니다.
강력한 에이전트 벤치마크 성능 (Strong agentic benchmark performance): Laguna M.1은 SWE-bench Verified, SWE-bench Multilingual, SWE-Bench Pro 및 Terminal-Bench 2.0에서 최첨단 오픈 웨이트 (open-weight) 및 프런티어 (frontier) 모델들과 경쟁할 만한 성능을 보여줍니다.
Apache 2.0 라이선스 (Apache 2.0 license): 상업적 및 비상업적 목적으로 자유롭게 사용 및 수정이 가능합니다.

모델 개요 (Model overview)

학습 (Training): 사전 학습 (pre-training), 사후 학습 (post-training) 및 강화 학습 (reinforcement learning) 단계
파라미터 수 (Number of parameters): 총 225B, 토큰당 23B 활성화
옵티마이저 (Optimizer): Muon
레이어 (Layers): 글로벌 어텐션 (global attention)을 포함한 70개 레이어
전문가 (Experts): 1개의 공유 전문가를 포함한 256개 전문가; top-k=16 라우팅
밀집 레이어 (Dense layers): 처음 3개 레이어는 밀집 SwiGLU; 나머지 67개 레이어는 희소 MoE (sparse MoE)
어텐션 (Attention): 64 Q-heads, 8 KV-heads, 헤드 차원 (head dimension) 128, softplus 어텐션 출력 게이팅 (softplus attention output gating) 포함
위치 인코딩 (Positional encoding): YaRN을 적용한 RoPE
모달리티 (Modality): 텍스트-투-텍스트 (text-to-text)
컨텍스트 윈도우 (Context window): 262,144 토큰
추론 지원 (Reasoning support): 보존된 사고 (preserved thinking)를 포함한 교차 사고 (interleaved thinking)

모델 파라미터 | SWE-bench Verified | SWE-bench Multilingual | SWE-bench Pro (Public Dataset) | Terminal-Bench 2.0

Laguna M.1 225B-A23B 74.6% 63.1% 49.2% 45.8%
Devstral 2 123B dense 72.2% 61.3% - 32.6%
GLM-4.7 355B-A32B 73.8% 66.7% - 41.0%
DeepSeek-V4 Flash 284B-A13B 79.0% 73.3% 52.6% 56.9%

Qwen3.5-397B-A17B 397B-A17B 76.2% 69.3% 50.9% 52.5%
Claude Sonnet 4.6 - 79.6% - - 59.1%

submitted by    /u/pmttyji  

[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0