arXiv논문2026. 06. 25. 11:45

Autodata: 고품질 합성 데이터(Synthetic Data)를 생성하는 에이전트형 데이터 과학자

요약

고품질 합성 데이터를 생성하는 에이전트형 데이터 과학자 방법론인 Autodata를 소개합니다. 에이전트형 셀프 인스트럭트와 메타 최적화 기법을 통해 기존 방식보다 뛰어난 성능의 데이터를 구축할 수 있음을 입증했습니다.

핵심 포인트

에이전트가 데이터 과학자 역할을 수행하여 고품질 학습/평가 데이터 생성
에이전트형 셀프 인스트럭트(Agentic Self-Instruct) 구현 방식 제안
메타 최적화를 통해 데이터 생성 에이전트의 성능을 극대화
추론 연산량을 고품질 모델 학습 데이터로 전환하는 효율적 방법 제공

우리는 AI 에이전트가 고품질의 학습 및 평가 데이터를 구축하는 데이터 과학자로서 역할을 수행할 수 있게 하는 일반적인 방법론인 Autodata를 소개합니다. 우리는 이러한 데이터 과학자 에이전트가 더욱 강력한 데이터를 생성하도록 학습(메타 최적화 (meta-optimize))하는 방법을 보여줍니다. 우리는 전체적인 공식화(formulation)와 구체적인 실무 구현 방식인 에이전트형 셀프 인스트럭트(Agentic Self-Instruct)를 설명합니다. 우리는 컴퓨터 과학 연구 작업, 법률 추론 작업, 그리고 수학적 객체를 이용한 추론 작업에 대해 실험을 수행하였으며, 여기서 기존의 고전적인 합성 데이터셋 생성 방법들과 비교하여 개선된 결과를 얻었습니다. 나아가, 데이터 과학자 에이전트 자체를 메타 최적화하는 것은 훨씬 더 큰 성능 향상을 가져옵니다. 에이전트형 데이터 생성은 증가된 추론 연산량(inference compute)을 더 높은 품질의 모델 학습으로 전환하는 방법을 제공합니다. 전반적으로, 우리는 이 방향이 AI 데이터를 구축하는 방식을 변화시킬 잠재력을 가지고 있다고 믿습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Autodata: 고품질 합성 데이터(Synthetic Data)를 생성하는 에이전트형 데이터 과학자

요약

핵심 포인트

댓글