본문으로 건너뛰기

© 2026 Molayo

HF요약2026. 04. 29. 13:56

오늘 Laguna M.1 과 Laguna XS.2 공개

요약

본 기사는 두 가지 새로운 오픈-웨이트 기반 모델인 Laguna M.1과 Laguna XS.2를 발표합니다. 특히 Laguna XS.2는 Apache 2.0 라이선스 하에 제공되며, 이 모델들은 대규모 사전 학습(pre-training), 데이터 혼합 최적화, 합성 데이터 활용 등 다양한 고급 훈련 기법을 적용했습니다. 개발팀은 코딩 에이전트의 성능 향상을 위해 데이터 큐레이션부터 RL 런타임까지 전체 모델 훈련 스택을 자체적으로 구축하고 개선했음을 강조합니다.

핵심 포인트

  • Laguna XS.2는 Apache 2.0 라이선스 하에 공개된 첫 오픈-웨이트 기반 모델입니다.
  • 모델들은 대규모 사전 학습, 데이터 혼합 최적화(AutoMixer), 그리고 고품질 합성 데이터를 활용하여 성능을 극대화했습니다.
  • 훈련 과정은 데이터 큐레이션, 사전 학습, 사후 학습, 에이전트 RL 등 전 과정을 자체적으로 관리하는 통합 스택으로 이루어져 있습니다.
  • 효율적인 분산 Muon 구현과 비동기 에이전트 강화학습(async agent RL)을 통해 훈련 안정성과 효율성을 높였습니다.

오늘 우리는 첫 번째 공개 모델인 Laguna M.1 과 Laguna XS.2 를 출시합니다.

Laguna XS.2 는 우리의 첫 오픈-웨이트 (open-weight) 릴리스로, 가중치가 오늘 Hugging Face 에서 이용 가능합니다:
https://huggingface.co/poolside/Laguna-XS.2

이 모델들에 투입된 몇 가지 세부 사항: 대규모 사전 학습 (large-scale pre-training), 데이터 혼합 최적화 (data mixture optimization), 합성 데이터 (synthetic data), 옵티마이저 효율성 (optimizer efficiency), 그리고 비동기 에이전트 강화학습 (async agent RL).

Laguna M.1 은 총 225B / 활성 23B MoE 입니다.
Laguna XS.2 는 총 33B / 활성 3B MoE 로, 또한 우리의 첫 오픈-웨이트 릴리스이며 Apache 2.0 라이선스 하에 제공됩니다.
M.1 은 우리의 첫 대규모 기반 모델 (foundation model) 런으로 작년 말 사전 학습을 완료했습니다. XS.2 는 더 작은

우리는 데이터 큐레이션 (data curation), 사전 학습 (pre-training), 사후 학습 (post-training), 에이전트 RL, 평가, 그리고 에이전트를 운영하기 위해 사용되는 런타임 (runtime) 을 모두 소유하는 모델 훈련을 수행합니다.
코딩 에이전트의 경우 이러한 구성 요소들은 긴밀하게 결합되어 있습니다. 환경이 어떤 데이터가 유용한지, 어떤 보상이 포착해야 하는지, 그리고 어떤

큰 교훈 중 하나는 사전 학습 데이터 큐레이션이었습니다. 우리의 사전 학습 혼합 (mixture) 은 M.1 과 XS.2 사이에서 많이 변했으며, AutoMixer 와 더 나은 애블레이션 레시피 (ablation recipes) 를 통해 품질과 다양성을 모두 최적화하는 새로운 방법을 도입했습니다.

다른 하나는 합성 데이터였습니다. XS.2 의 경우 최종 사전 학습 혼합의 약 13% 입니다. 우리는 이제 4.4T+ 의 고다양성과 고품질 합성 토큰을 생성했으며, 여기에도 몇 가지 탐구되지 않은 아이디어가 있습니다.

훈련 효율성 트릭 중 하나는 우리의 분산 Muon 구현입니다. 우리의 애블레이션에서 Muon 은 AdamW 와 동일한 손실 (loss) 을 약 15% 적은 단계 (steps) 에서 도달했지만, 일반적으로 단계당 실행 비용이 더 비쌉니다. 우리의 분산 구현을 통해 옵티마이저 오버헤드는 1% 미만으로 줄었습니다.

에이전트 RL 에 대해 우리는 장기 범위의 소프트웨어 엔지니어링 및 터미널 작업에 대한 비동기 설정을 구축했습니다.
액터 (Actors) 는 샌드박스 컨테이너에서 우리의 에이전트/하arness 를 실행하며, 실행 피드백을 통해 궤적 (trajectories) 을 점수화하고, 트레이너는 기록을 기다리지 않고 소비합니다.

장기 런에서의 훈련 안정성은 도전적인 과제이며, 우리는 토큰-인-토큰-아웃 (token-in-token-out) 과 CISPO 가 도움이 된다고 발견했습니다. 우리는 이제 주간 RL 런 전반에 걸쳐 꾸준한 개선을 보고 있습니다. 실제로 우리는 출시 체크포인트를 넘어 계속된 개선으로 몇 가지 런을 유지하고 있습니다.

역량, 다중 턴 견고성 (multi-turn robustness), 조종 가능성 (steerability), 그리고 취약한 실패 모드 (brittle failure modes) 에 대해서는 여전히 개선할 것이 많습니다. 우리는 데이터, 아키텍처, 평가, RL 에서부터 스택의 각 단계마다 노력을 기울이고 있습니다. 더 많은 기술적 세부 사항은 곧 공개됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @Thom_Wolf (HuggingFace 공동창립자)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
18

댓글

0