본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 13:11

D3-Gym: 데이터 주도 발견을 위한 실세계 검증 가능 환경 구축

요약

본 기술 기사는 과학적 데이터 주도 발견(Data-Driven Discovery)을 위한 검증 가능한 환경 데이터셋인 D3-Gym을 소개합니다. D3-Gym은 네 가지 학문 분야의 239개 실세계 과학 저장소에서 유래한 565개의 작업을 포함하며, 자연어 지시문, 실행 가능 환경, 입력 데이터셋 등 포괄적인 요소를 제공하여 모델 학습에 최적화되어 있습니다. 이 환경을 활용하여 학습된 에이전트는 Qwen3-32B와 같은 대규모 언어 모델에서 상당한 성능 향상을 보여주었으며, 이는 과학 분야에서의 AI 에이전트 발전에 중요한 진전을 의미합니다.

핵심 포인트

  • D3-Gym은 데이터 주도 발견을 위한 최초의 자동 생성된 검증 가능 환경 데이터셋입니다.
  • 565개의 작업과 239개의 실세계 과학 저장소를 포함하며, 자연어 지시문 및 실행 가능한 환경이 제공됩니다.
  • 평가 스크립트는 인간 주석 처리 골드 표준과 87.5%의 높은 일치도를 보여 과학적 타당성을 입증했습니다.
  • D3-Gym에서 학습된 에이전트는 Qwen3-32B 모델의 성능을 크게 향상시켜, 독점 모델과의 격차를 줄이는 데 기여했습니다.

최근 언어 모델 및 에이전트를 활용한 과학적 데이터 주도(discovery) 연구 분야에서 이루어진 진전에도 불구하고, 실세계 과학적 작업을 반영하는 검증 가능한 환경의 부재로 인해 그 능력을 한층 더 발전시키는 데는 제약이 존재합니다. 이 공백을 메우기 위해, 우리는 과학적 데이터 주도 발견(Data-Driven Discovery) 을 위한 첫 번째 자동 생성된 검증 가능 환경 데이터셋인 D3-Gym 을 소개합니다. D3-Gym 은 (1) 네 가지 학문 분야의 239 개 실세계 과학 저장소(Source) 에서 유래한 565 개의 작업을 포함하며, (2) 각 작업에는 자연어 지시문, 사전 설치된 의존성이 포함된 실행 가능 환경, 입력 데이터셋, 아티팩트 미리보기, 참조 코드 솔루션, 그리고 자동 합성된 평가 스크립트가 탑재되어 있습니다. D3-Gym 내 검증 신호의 품질에 대한 엄격한 평가를 통해, 우리의 평가 스크립트가 인간이 주석 처리한 골드 표준(gold standards) 과 87.5% 의 일치도를 보이며, 해당 분야의 평가 논리에서 강력한 정렬을 이루고 있어 과학적 타당성을 입증했습니다. 또한 D3-Gym 에서 샘플링된 궤적(trjectories) 을 활용한 학습은 ScienceAgentBench 상의 다양한 크기의 Qwen3 모델에 걸쳐 일관되고 상당한 성능 향상을 가져왔습니다. 구체적으로 Qwen3-32B 의 경우 절대 점수 7.8 포인트 향상되었으며, 강력한 독점(proprietary) 모델과의 격차를 크게 줄였습니다. 모든 D3-Gym 아티팩트(환경, 생성 워크플로우, 궤적, 모델) 는 https://github.com/OSU-NLP-Group/D3-Gym 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0