훈련 데이터 생성 방식을 변경하여 4B 모델이 397B 베이스라인을 능가하다

Meta FAIR가 무시하기 어려운 결과를 방금 발표했습니다. 4B 파라미터 모델이 Autodata에 의해 생성된 데이터로 훈련된 후, 아키텍처(architectural) 변경 없이도 PRBench-Legal에서 자신들의 397B 모델보다 더 나은 성능을 보였습니다.

유일한 변수는 훈련 데이터가 어떻게 만들어졌는가 하는 점입니다.

현재 합성 데이터 파이프라인(Synthetic Data Pipelines)의 문제점

대부분의 합성 데이터 워크플로우는 동일한 패턴을 따릅니다: 모델에 프롬프트를 입력하고, 출력을 수집하고, 필터링하면 끝입니다. 문제는 데이터 품질이 본질적으로 통제되지 않는다는 점입니다.

두 가지 실패 모드가 계속 나타납니다:

너무 쉬움 (Too easy) - 훈련시키려는 모델이 이미 문제를 해결합니다. 학습 신호(learning signal)가 없습니다.
너무 어려움 (Too hard) - 모든 롤아웃(rollout) 점수가 0에 가깝습니다. GRPO가 활용할 그래디언트(gradient)가 없습니다.

Autodata는 질문을 재구성합니다: 데이터를 생성한 다음 평가하는 대신, 모델의 행동 자체가 무엇이 좋은 데이터인지를 정의하게 하면 어떨까요?

파이프라인 작동 방식

The Weak-vs-Strong Agentic Self-Instruct architecture. A main LLM agent orchestrates four subagents: a Challenger that generates examples, Weak and Strong solvers that attempt them, and a Judge that evaluates outputs and feeds learnings back into the loop.

Autodata는 네 개의 LLM 서브 에이전트(subagents)를 조정하는 오케스트레이터(orchestrator) 에이전트를 실행합니다:

Challenger - 소스 자료(논문, 법률 문서, 수학 문제)로부터 질문과 루브릭(rubrics)을 생성합니다.
Weak solver - 데이터가 좋다면 어려움을 겪어야 하는 작은 모델입니다.
Strong solver - 성공해야 하며, 질문이 실제로 답 가능한지 검증하는 큰 모델입니다.
Judge - 루브릭에 따라 두 솔버(solver)의 점수를 매기고 오케스트레이터에 구조화된 피드백을 보냅니다.

예시는 다음 세 가지 조건이 동시에 충족될 때만 **수락(accepted)**됩니다: 약한 솔버(weak solver)의 점수는 낮고, 강한 솔버(strong solver)의 점수는 높으며, 둘 사이의 격차가 충분히 커야 합니다. 그렇지 않으면 오케스트레이터는 Challenger에게 단순히 말을 바꾸는 것이 아니라, 완전히 다른 각도에서 새로운 질문을 생성하도록 구체적인 피드백을 보냅니다.

단 하나의 승인된 질문을 생성하는 데 평균 **6.59회 반복 (iterations)**이 소요됩니다.

결과

GPT-5와 Kimi-K2.6에 의해 각각 독립적으로 채점된 PRBench-Legal 및 더 어려운 PRBench-Legal-Hard 하위 집합 모두에서, Autodata로 학습된 4B 모델이 모든 열에서 1위를 차지했습니다. 이는 CoT (Chain-of-Thought)로 학습된 4B 모델과 RL (Reinforcement Learning)이 없는 397B 베이스라인을 능가하는 성능입니다.

Training dynamics on legal reasoning tasks. Qwen3.5-4B trained on Agentic Self-Instruct data stays ahead of the CoT baseline on every metric throughout training - on train reward, held-out CoT validation, and both PRBench-Legal splits.

동일한 패턴이 CS (Computer Science) 연구 과제 및 과학적 추론 (scientific reasoning)에서도 나타납니다. 에이전트 방식의 데이터 (Agentic data)는 시작부터 앞서 나가며, 학습을 통해 그 격차는 더욱 벌어집니다.

실제로 어떤 일이 일어나고 있는가

4B > 397B 결과가 가장 흥미로운 부분은 아닙니다. 더 중요한 질문은 왜 이런 일이 발생했는가입니다.

법률 과제에서 표준적인 CoT Self-Instruct는 너무 어려운 질문을 생성했습니다. 이로 인해 거의 모든 롤아웃 (rollout)에서 약한 솔버 (solver) 점수가 0 근처에 밀집되었습니다. 모든 롤아웃이 동일한 방식으로 실패하면, GRPO (Group Relative Policy Optimization)는 배울 것이 아무것도 없습니다. Autodata는 질문을 더 쉽게 만든 것이 아닙니다. 그것은 보상 분포 (reward distribution)를 재형성하여, 약한 솔버를 경사 하강법 (gradient descent)이 제 역할을 할 수 있을 만큼 충분한 분산이 있는 범위로 밀어 넣은 것입니다.

이것이 어려운 데이터와 유용한 데이터의 차이입니다.

진정한 시사점

SFT (Supervised Fine-Tuning) 또는 RL 학습 파이프라인을 구축하고 있다면, 다음과 같은 질문을 던져볼 가치가 있습니다: 데이터 품질을 측정하기 위해 실제로 무엇을 사용하고 있습니까?

만약 그 답이 정적인 루브릭 (rubric)이나 일반적인 LLM-as-judge 점수라면, Autodata는 더 중요한 지표가 **대상 모델의 행동 (target model behavior)**임을 시사합니다. 좋은 데이터란 판사 프롬프트 (judge prompt)에서 높은 점수를 받는 데이터가 아니라, 당신이 학습시키고 있는 모델에게 적절한 난이도 영역에 위치하는 데이터입니다.

전체 논문:

[2606.25996] Autodata: 고품질 합성 데이터(synthetic data)를 생성하는 에이전트형 데이터 과학자

우리는 AI 에이전트가 고품질의 훈련 및 평가 데이터를 구축하는 데이터 과학자로서 역할을 수행할 수 있게 하는 일반적인 방법론인 Autodata를 소개합니다. 우리는 이러한 데이터 과학자 에이전트가 더욱 강력한 데이터를 생성하는 법을 배울 수 있도록 훈련(메타 최적화 (meta-optimize))하는 방법을 보여줍니다. 우리는 전체적인 공식화(formulation)와 구체적인 실무 구현 방식인 에이전트형 셀프 인스트럭트 (Agentic Self-Instruct)에 대해 설명합니다. 우리는 컴퓨터 과학 연구 작업, 법률 추론 작업, 그리고 수학적 객체를 이용한 추론 작업에 대해 실험을 수행하였으며, 기존의 전통적인 합성 데이터셋 생성 방식과 비교하여 개선된 결과를 얻었습니다. 나아가, 데이터 과학자 에이전트 자체를 메타 최적화하는 것은 훨씬 더 큰 성능 향상을 가져옵니다. 에이전트형 데이터 생성은 증가된 추론 연산량 (inference compute)을 더 높은 품질의 모델 훈련으로 전환하는 방법을 제공합니다. 전반적으로, 우리는 이 방향이 AI 데이터를 구축하는 방식을 변화시킬 잠재력을 가지고 있다고 믿습니다.

arxiv.org

훈련 데이터 생성 방식을 변경하여 4B 모델이 397B 베이스라인을 능가하다

요약

핵심 포인트

현재 합성 데이터 파이프라인(Synthetic Data Pipelines)의 문제점

파이프라인 작동 방식

결과

[2606.25996] Autodata: 고품질 합성 데이터(synthetic data)를 생성하는 에이전트형 데이터 과학자

댓글