본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:17

AgenticQwen: 산업 규모 도구 사용을 위한 소형 에이전트 언어 모델 훈련법

요약

본 논문은 복잡한 다단계 추론과 도구 사용 능력이 요구되는 산업 현장에 적합하도록 설계된 소형 에이전트 언어 모델 'AgenticQwen'을 소개합니다. AgenticQwen은 합성 데이터와 제한적인 오픈소스 데이터를 활용하여 다중 라운드 강화학습 (RL)으로 훈련되었습니다. 핵심은 '추론(Reasoning)'과 '에이전트(Agentic)'라는 두 가지 이중 데이터 플라이휠(Dual Data Flywheels)을 결합한 독특한 프레임워크입니다. 이 구조는 오류 학습을 통해 과제 난이도를 높이고, 선형 워크플로우를 실제 복잡성을 반영

핵심 포인트

  • AgenticQwen은 산업 규모의 도구 사용(Tool Use) 및 다단계 추론 능력을 갖춘 소형 에이전트 언어 모델입니다.
  • 훈련 프레임워크는 강화학습 (RL) 기반이며, '추론 RL'과 '에이전트 RL'을 결합한 이중 데이터 플라이휠(Dual Data Flywheels)을 사용합니다.
  • 추론 플라이휠은 오류 학습을 통해 과제 난이도를 점진적으로 높이고, 에이전트 플라이휠은 선형 워크플로우를 다분기 행동 트리(multi-branch behavior trees)로 확장하여 현실의 의사결정 복잡성을 반영합니다.
  • 실제 산업 에이전트 시스템에서 AgenticQwen은 검색 및 데이터 분석 작업에 있어 대규모 모델과의 성능 격차를 크게 줄였습니다.

현대 산업 응용 분야는 단순한 언어 이해를 넘어, 다단계 추론(multi-step reasoning)과 실제 환경에서의 도구 사용(tool use)이 가능한 '에이전트' 역할을 수행하는 대규모 언어 모델 (LLM)을 요구하고 있습니다. 이러한 작업들은 엄격한 비용 및 지연 시간 제약 조건 하에서 이루어져야 하므로, 소형 에이전트 모델의 개발이 매우 중요합니다.

본 논문에서는 이러한 요구사항을 충족하기 위해 'AgenticQwen' 계열 모델 패밀리를 소개합니다. 이 모델들은 합성 데이터(synthetic data)와 제한적인 오픈소스 데이터를 활용하여 다중 라운드 강화학습 (RL) 방식으로 훈련되었습니다.

AgenticQwen의 핵심은 독창적인 **이중 데이터 플라이휠 (Dual Data Flywheels)**을 결합한 훈련 프레임워크에 있습니다. 이 프레임워크는 모델에게 점진적으로 난이도가 높아지는 과제들을 자동으로 생성하여 학습시킵니다.

  1. 추론 플라이휠 (Reasoning Flywheel): 이 부분은 모델의 추론 능력을 강화하는 데 초점을 맞춥니다. 특히, 모델이 오류를 범할 때 발생하는 피드백을 학습에 활용하여 과제의 난이도를 지속적으로 높여나갑니다.

  2. 에이전트 플라이휠 (Agentic Flywheel): 이 부분은 에이전트의 의사결정 복잡성을 모델링합니다. 현실 세계의 애플리케이션에서 발생하는 작업 흐름은 단순한 선형 구조가 아닌, 여러 갈래로 나뉘는 복잡한 '행동 트리(behavior trees)'를 가집니다. Agentic Flywheel은 이러한 선형 워크플로우를 다분기 행동 트리(multi-branch behavior trees) 형태로 확장하여, 실제 의사결정의 복잡성을 더 정확하게 반영하도록 훈련합니다.

이러한 결합된 접근 방식을 통해 훈련된 AgenticQwen은 공개 벤치마크와 실제 산업 에이전트 시스템에서 검증되었습니다. 그 결과, 여러 에이전트 관련 벤치마크에서 강력한 성능을 입증했으며, 특히 검색(search) 및 데이터 분석(data analysis)과 같은 복잡한 작업에서는 대규모 모델들과의 성능 격차를 크게 줄이는 것으로 나타났습니다.

개발자들은 Model checkpoints와 합성 데이터 일부를 Hugging Face에서 확인할 수 있으며, 데이터 합성 파이프라인 및 RL 훈련 코드는 GitHub에서 제공되어 재현성을 높였습니다. 이 데이터 합성 파이프라인은 또한 EasyDistill 프레임워크에도 통합될 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0