본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 12:03

PithTrain: 컴팩트하고 에이전트 친화적인(Agent-Native) MoE 학습 시스템

요약

PithTrain은 에이전트 친화적(Agent-Native) 설계를 통해 MoE 학습 프레임워크의 효율성을 높인 시스템입니다. 기존 프레임워크의 높은 운영 비용을 해결하기 위해 에이전트-태스크 효율성(ATE) 개념을 도입하고, ATE-Bench를 통해 성능을 검증했습니다.

핵심 포인트

  • 에이전트-태스크 효율성(ATE) 개념 제안
  • 에이전트 턴(Agent Turns) 최대 62% 감소
  • 활성 GPU 시간(Active GPU Time) 64% 단축
  • 프로덕션 수준의 처리량 유지 및 에이전트 친화적 설계

Mixture-of-Experts (MoE)는 프런티어 언어 모델(frontier language models)을 위한 지배적인 아키텍처가 되었습니다. 이러한 수요를 충족하기 위해, 프로덕션 프레임워크(production frameworks)들은 수년간의 엔지니어링 노력을 통해 최적화된 MoE 학습 스택을 구축해 왔습니다. 하지만 새로운 아키텍처와 시스템 최적화에 맞춰 이러한 스택을 진화시키는 일은 여전히 비용이 많이 듭니다. AI 코딩 에이전트(AI coding agents)의 부상과 함께, 이들은 학습 프레임워크 개발의 일부를 자동화하고 이러한 진화를 가속화할 수 있습니다. 그러나 기존 프레임워크에 에이전트를 적용하는 것은 오늘날의 처리량(throughput) 중심 평가에서는 보이지 않는 숨겨진 비용을 수반합니다. 우리는 이 누락된 차원을 에이전트-태스크 효율성 (Agent-Task Efficiency, ATE)이라고 명명합니다. 즉, 프레임워크를 이해하고, 운영하며, 확장하기 위해 코딩 에이전트를 사용하는 데 드는 비용입니다. 우리는 네 가지 에이전트 친화적(agent-native) 설계 원칙에 기반하여, 컴팩트하고 에이전트 친화적인 MoE 학습 프레임워크인 PithTrain을 구축했습니다. 나아가 우리는 실제 학습 프레임워크 작업들을 다루는 ATE-Bench를 소개합니다. 우리의 평가 결과에 따르면, PithTrain은 프로덕션 프레임워크의 처리량(throughput)과 대등한 수준을 보여주며, ATE-Bench에서는 에이전트 턴(Agent Turns)을 최대 62% 줄이고 활성 GPU 시간(Active GPU Time)을 64% 단축함으로써 더 높은 에이전트-태스크 효율성을 실현합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0