arXiv논문2026. 06. 15. 08:04

가설 트리 정교화(Hypothesis-Tree Refinement)를 통한 범용 자율 연구를 향하여

요약

AI 에이전트가 자율적으로 과학적 연구 루프를 수행할 수 있도록 돕는 범용 프레임워크 'Arbor'를 소개합니다. 가설 트리 정교화(HTR) 방식을 통해 전략적 코디네이터와 실행기가 협력하며, 누적된 통찰력을 바탕으로 연구를 지속합니다. 실제 연구 과제에서 기존 모델 대비 월등한 성능을 입증했습니다.

핵심 포인트

가설 트리 정교화(HTR)를 통한 자율 연구 프레임워크 Arbor 제안
코디네이터와 실행기의 역할을 분리하여 전략적 연구 수행
실험 결과와 통찰력을 트리에 누적하여 연구 효율 극대화
모델 학습 및 데이터 합성 등 6개 과제에서 최고 성능 달성
MLE-Bench Lite에서 GPT-5.5 기반 86.36% 성과 기록

과학적 진보는 탐색, 실험, 추상화의 반복적인 루프에 의존합니다. 연구자들은 후보 방향을 테스트하고, 증거를 해석하며, 그 결과로 얻은 교훈을 이후의 시도에 반영합니다. 우리는 AI 에이전트가 어떻게 장기적인 관점에서 이 루프를 자율적으로 실행할 수 있는지 연구합니다. 우리는 장기적인 코디네이터(coordinator), 단기적인 실행기(executors), 그리고 가설, 산출물(artifacts), 증거, 그리고 정제된 통찰력을 시간에 따라 연결하는 지속적인 트리인 가설 트리 정교화(Hypothesis Tree Refinement, HTR)를 결합한 자율 연구를 위한 범용 프레임워크인 Arbor를 소개합니다. 코디네이터는 트리에 대한 전역적인 연구 전략을 관리하며, 실행기는 격리된 워크트리(worktrees) 내에서 개별 가설을 구현하고 테스트합니다. 결과가 반환됨에 따라, Arbor는 트리를 업데이트하고, 재사용 가능한 교훈을 전파하며, 탐색 프런티어(search frontier)를 정교화하고, 검증된 개선 사항을 수용합니다. 이러한 설계는 자율 연구를 국소적인 시도의 연속에서 전략, 실행, 증거가 시간을 관통하여 전달되는 누적적인 프로세스로 전환합니다. 우리는 에이전트가 단계별 인간의 감독 없이 반복적인 실험을 통해 초기 연구 산출물을 개선하는 운영 환경인 자율 최적화(Autonomous Optimization, AO) 하에서 Arbor를 평가합니다. 모델 학습, 하네스 엔지니어링(harness engineering), 데이터 합성 분야의 6가지 실제 연구 과제 전반에 걸쳐, Arbor는 6개 과제 모두에서 최고의 홀드아웃(held-out) 결과를 달성했으며, 동일한 작업 인터페이스와 리소스 예산 하에서 Codex 및 Claude Code의 평균 상대적 홀드아웃 이득보다 2.5배 이상 높은 성과를 거두었습니다. MLE-Bench Lite에서 Arbor는 GPT-5.5를 사용하여 86.36%의 Any Medal을 달성하며, 우리의 비교 대상 중 가장 강력한 결과를 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

가설 트리 정교화(Hypothesis-Tree Refinement)를 통한 범용 자율 연구를 향하여

요약

핵심 포인트

댓글