arXiv논문2026. 06. 24. 11:14

OpenThoughts-Agent: 에이전트 모델을 위한 데이터 레시피

요약

OpenThoughts-Agent(OT-Agent)는 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인을 제안합니다. 10만 개의 학습 데이터로 Qwen3-32B를 미세 조정하여 기존 Nemotron-Terminal-32B보다 높은 벤치마크 성능을 달성했습니다.

핵심 포인트

에이전트 모델 학습을 위한 공개 데이터 큐레이션 파이프라인 구축
100회 이상의 어블레이션 실험을 통한 작업 소스 및 다양성 검증
Qwen3-32B 미세 조정을 통해 7개 벤치마크에서 평균 44.8% 정확도 기록
데이터 스케일링 특성 및 연산량 대비 우수한 성능 입증
학습 세트, 파이프라인, 모델을 openthoughts.ai에 전면 공개

에이전트형 언어 모델 (Agentic language models)은 AI의 활용 범위를 극적으로 확장시키지만, 광범위한 능력을 갖춘 에이전트를 위한 학습 데이터를 어떻게 큐레이션(curate)해야 하는지에 대해서는 공개적으로 알려진 바가 거의 없습니다. SWE-Smith, SERA, Nemotron-Terminal과 같은 기존의 공개적인 노력들은 일반적으로 단일 벤치마크 (benchmark)를 목표로 하며, 다양한 에이전트 작업 전반에 걸쳐 일반화할 수 있는 모델을 어떻게 학습시킬 것인가라는 문제를 남겨두고 있습니다. OpenThoughts-Agent (OT-Agent) 프로젝트는 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인 (data curation pipeline)을 통해 이러한 격차를 해소합니다. 우리는 파이프라인의 각 단계를 체계적으로 조사하기 위해 100회 이상의 통제된 어블레이션 실험 (ablation experiments)을 수행하였으며, 이를 통해 작업 소스 (task sources)와 다양성 (diversity)의 중요성에 대한 통찰을 얻었습니다. 이후 우리는 파이프라인으로부터 10만 개의 예시로 구성된 학습 세트를 구축하고, 이 데이터셋을 사용하여 Qwen3-32B를 미세 조정 (fine-tune)했습니다. 그 결과 7개의 에이전트 벤치마크에서 평균 44.8%의 정확도를 기록했으며, 이는 기존의 가장 강력한 공개 데이터 기반 에이전트 모델인 Nemotron-Terminal-32B (40.9%)보다 3.9%포인트 향상된 수치입니다. 또한, 우리의 학습 데이터는 강력한 스케일링 특성 (scaling properties)을 보여주며, 연산량 통제 비교 (compute-controlled comparisons)에서 모든 학습 세트 크기에 대해 대안적인 공개 데이터셋보다 뛰어난 성능을 보였습니다. 우리는 에이전트 모델 학습에 관한 향후 공개 연구를 지원하기 위해 학습 세트, 데이터 파이프라인, 실험 데이터 및 모델을 openthoughts.ai에 공개적으로 배포합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenThoughts-Agent: 에이전트 모델을 위한 데이터 레시피

요약

핵심 포인트

댓글