오늘 Laguna M.1 과 Laguna XS.2 공개

요약

본 기사는 두 가지 새로운 오픈-웨이트 기반 모델인 Laguna M.1과 Laguna XS.2를 발표합니다. 특히 Laguna XS.2는 Apache 2.0 라이선스 하에 제공되며, 이 모델들은 대규모 사전 학습(pre-training), 데이터 혼합 최적화, 합성 데이터 활용 등 다양한 고급 훈련 기법을 적용했습니다. 개발팀은 코딩 에이전트의 성능 향상을 위해 데이터 큐레이션부터 RL 런타임까지 전체 모델 훈련 스택을 자체적으로 구축하고 개선했음을 강조합니다.

핵심 포인트

Laguna XS.2는 Apache 2.0 라이선스 하에 공개된 첫 오픈-웨이트 기반 모델입니다.
모델들은 대규모 사전 학습, 데이터 혼합 최적화(AutoMixer), 그리고 고품질 합성 데이터를 활용하여 성능을 극대화했습니다.
훈련 과정은 데이터 큐레이션, 사전 학습, 사후 학습, 에이전트 RL 등 전 과정을 자체적으로 관리하는 통합 스택으로 이루어져 있습니다.
효율적인 분산 Muon 구현과 비동기 에이전트 강화학습(async agent RL)을 통해 훈련 안정성과 효율성을 높였습니다.

오늘 우리는 첫 번째 공개 모델인 Laguna M.1 과 Laguna XS.2 를 출시합니다.

Laguna XS.2 는 우리의 첫 오픈-웨이트 (open-weight) 릴리스로, 가중치가 오늘 Hugging Face 에서 이용 가능합니다:
https://huggingface.co/poolside/Laguna-XS.2

이 모델들에 투입된 몇 가지 세부 사항: 대규모 사전 학습 (large-scale pre-training), 데이터 혼합 최적화 (data mixture optimization), 합성 데이터 (synthetic data), 옵티마이저 효율성 (optimizer efficiency), 그리고 비동기 에이전트 강화학습 (async agent RL).

Laguna M.1 은 총 225B / 활성 23B MoE 입니다.
Laguna XS.2 는 총 33B / 활성 3B MoE 로, 또한 우리의 첫 오픈-웨이트 릴리스이며 Apache 2.0 라이선스 하에 제공됩니다.
M.1 은 우리의 첫 대규모 기반 모델 (foundation model) 런으로 작년 말 사전 학습을 완료했습니다. XS.2 는 더 작은

우리는 데이터 큐레이션 (data curation), 사전 학습 (pre-training), 사후 학습 (post-training), 에이전트 RL, 평가, 그리고 에이전트를 운영하기 위해 사용되는 런타임 (runtime) 을 모두 소유하는 모델 훈련을 수행합니다.
코딩 에이전트의 경우 이러한 구성 요소들은 긴밀하게 결합되어 있습니다. 환경이 어떤 데이터가 유용한지, 어떤 보상이 포착해야 하는지, 그리고 어떤

큰 교훈 중 하나는 사전 학습 데이터 큐레이션이었습니다. 우리의 사전 학습 혼합 (mixture) 은 M.1 과 XS.2 사이에서 많이 변했으며, AutoMixer 와 더 나은 애블레이션 레시피 (ablation recipes) 를 통해 품질과 다양성을 모두 최적화하는 새로운 방법을 도입했습니다.

다른 하나는 합성 데이터였습니다. XS.2 의 경우 최종 사전 학습 혼합의 약 13% 입니다. 우리는 이제 4.4T+ 의 고다양성과 고품질 합성 토큰을 생성했으며, 여기에도 몇 가지 탐구되지 않은 아이디어가 있습니다.

훈련 효율성 트릭 중 하나는 우리의 분산 Muon 구현입니다. 우리의 애블레이션에서 Muon 은 AdamW 와 동일한 손실 (loss) 을 약 15% 적은 단계 (steps) 에서 도달했지만, 일반적으로 단계당 실행 비용이 더 비쌉니다. 우리의 분산 구현을 통해 옵티마이저 오버헤드는 1% 미만으로 줄었습니다.

에이전트 RL 에 대해 우리는 장기 범위의 소프트웨어 엔지니어링 및 터미널 작업에 대한 비동기 설정을 구축했습니다.
액터 (Actors) 는 샌드박스 컨테이너에서 우리의 에이전트/하arness 를 실행하며, 실행 피드백을 통해 궤적 (trajectories) 을 점수화하고, 트레이너는 기록을 기다리지 않고 소비합니다.

장기 런에서의 훈련 안정성은 도전적인 과제이며, 우리는 토큰-인-토큰-아웃 (token-in-token-out) 과 CISPO 가 도움이 된다고 발견했습니다. 우리는 이제 주간 RL 런 전반에 걸쳐 꾸준한 개선을 보고 있습니다. 실제로 우리는 출시 체크포인트를 넘어 계속된 개선으로 몇 가지 런을 유지하고 있습니다.

역량, 다중 턴 견고성 (multi-turn robustness), 조종 가능성 (steerability), 그리고 취약한 실패 모드 (brittle failure modes) 에 대해서는 여전히 개선할 것이 많습니다. 우리는 데이터, 아키텍처, 평가, RL 에서부터 스택의 각 단계마다 노력을 기울이고 있습니다. 더 많은 기술적 세부 사항은 곧 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

오늘 Laguna M.1 과 Laguna XS.2 공개

요약

핵심 포인트

댓글