AgenticQwen: 산업 규모 도구 사용을 위한 소형 에이전트 언어 모델 훈련법

현대 산업 응용 분야는 단순한 언어 이해를 넘어, 다단계 추론(multi-step reasoning)과 실제 환경에서의 도구 사용(tool use)이 가능한 '에이전트' 역할을 수행하는 대규모 언어 모델 (LLM)을 요구하고 있습니다. 이러한 작업들은 엄격한 비용 및 지연 시간 제약 조건 하에서 이루어져야 하므로, 소형 에이전트 모델의 개발이 매우 중요합니다.

본 논문에서는 이러한 요구사항을 충족하기 위해 'AgenticQwen' 계열 모델 패밀리를 소개합니다. 이 모델들은 합성 데이터(synthetic data)와 제한적인 오픈소스 데이터를 활용하여 다중 라운드 강화학습 (RL) 방식으로 훈련되었습니다.

AgenticQwen의 핵심은 독창적인 **이중 데이터 플라이휠 (Dual Data Flywheels)**을 결합한 훈련 프레임워크에 있습니다. 이 프레임워크는 모델에게 점진적으로 난이도가 높아지는 과제들을 자동으로 생성하여 학습시킵니다.

추론 플라이휠 (Reasoning Flywheel): 이 부분은 모델의 추론 능력을 강화하는 데 초점을 맞춥니다. 특히, 모델이 오류를 범할 때 발생하는 피드백을 학습에 활용하여 과제의 난이도를 지속적으로 높여나갑니다.
에이전트 플라이휠 (Agentic Flywheel): 이 부분은 에이전트의 의사결정 복잡성을 모델링합니다. 현실 세계의 애플리케이션에서 발생하는 작업 흐름은 단순한 선형 구조가 아닌, 여러 갈래로 나뉘는 복잡한 '행동 트리(behavior trees)'를 가집니다. Agentic Flywheel은 이러한 선형 워크플로우를 다분기 행동 트리(multi-branch behavior trees) 형태로 확장하여, 실제 의사결정의 복잡성을 더 정확하게 반영하도록 훈련합니다.

이러한 결합된 접근 방식을 통해 훈련된 AgenticQwen은 공개 벤치마크와 실제 산업 에이전트 시스템에서 검증되었습니다. 그 결과, 여러 에이전트 관련 벤치마크에서 강력한 성능을 입증했으며, 특히 검색(search) 및 데이터 분석(data analysis)과 같은 복잡한 작업에서는 대규모 모델들과의 성능 격차를 크게 줄이는 것으로 나타났습니다.

개발자들은 Model checkpoints와 합성 데이터 일부를 Hugging Face에서 확인할 수 있으며, 데이터 합성 파이프라인 및 RL 훈련 코드는 GitHub에서 제공되어 재현성을 높였습니다. 이 데이터 합성 파이프라인은 또한 EasyDistill 프레임워크에도 통합될 수 있습니다.

Insights

AgenticQwen: 산업 규모 도구 사용을 위한 소형 에이전트 언어 모델 훈련법

요약

핵심 포인트

댓글

정의선 회장이 실리콘밸리에서 현대차를 자동차 회사라고 소개하지 않았음. "피지컬 AI 솔루션 기업으로 전환 중"이라고 못박음

이제 어떤 책이든 Claude의 스킬(skill)로 변환할 수 있습니다.

Jensen Huang의 행보: 글로벌 AI 공급망의 향후 5년을 결정짓다

Sony는 Bloodborne라는 게임을 소유하고 있습니다. 이는 역대 가장 높은 평가를 받은 게임 중 하나입니다. 그들은 11년 동안 이

정의선 회장이 실리콘밸리에서 현대차를 자동차 회사라고 소개하지 않았음. "피지컬 AI 솔루션 기업으로 전환 중"이라고 못박음

이제 어떤 책이든 Claude의 스킬(skill)로 변환할 수 있습니다.

Jensen Huang의 행보: 글로벌 AI 공급망의 향후 5년을 결정짓다

Sony는 Bloodborne라는 게임을 소유하고 있습니다. 이는 역대 가장 높은 평가를 받은 게임 중 하나입니다. 그들은 11년 동안 이