
Agents-A1: 35B MoE 에이전트, 1조 파라미터급 성능 달성
요약
Agents-A1은 35B MoE 모델임에도 불구하고 에이전트 호라이즌 확장을 통해 1조 파라미터급 성능을 구현했습니다. 45K 토큰 궤적과 멀티 티처 증류 기법을 사용하여 6개의 이질적인 도메인을 통합한 것이 특징입니다.
핵심 포인트
- 35B MoE 모델로 1조 파라미터급 성능 달성
- 에이전트 호라이즌 확장을 통한 성능 최적화
- 45K 토큰 궤적 기반의 멀티 티처 증류 기술 적용
- 6개의 서로 다른 도메인 통합 성공
파라미터가 아닌 에이전트 호라이즌 (agent horizon)을 확장함으로써 달성했습니다. 이는 45K-토큰 궤적 (trajectories)을 활용한 멀티 티처 증류 (multi-teacher distillation)를 통해 6개의 이질적인 도메인을 통합합니다.
모델:
https://huggingface.co/InternScience/Agents-A1
…
논문:
https://paperswithcode.com/paper/2606.306
16
…
홈페이지:
https://internscience.github.io/Agents-A1/
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기