arXiv논문2026. 06. 30. 11:06

진화 미세 조정 (Evolution Fine-Tuning): 371개의 최적화 태스크를 통한 발견 학습

요약

진화 미세 조정(EFT)은 LLM이 다양한 최적화 태스크를 통해 솔루션을 진화시키는 능력을 학습하도록 하는 새로운 미드 트레이닝 패러다임입니다. 371개의 태스크로 구성된 Finch Collection을 통해 모델이 태스크 간 일반화 능력을 갖추도록 유도합니다.

핵심 포인트

진화 탐색 궤적을 지도 학습으로 변환하여 모델에 학습시킴
태스크 간 일반화 능력을 부여하여 새로운 문제 해결력 향상
2B~9B 규모의 오픈 소스 LLM에서 성능 검증 완료
범용 발견 에이전트를 위한 핵심적인 연습 단계 역할 수행

더 빠른 GPU 커널 (GPU kernels)을 설계하는 경험이 오랫동안 해결되지 않은 수학적 추측 (mathematical conjecture)에 다가가는 데에도 도움이 될 수 있을까요? 진화 탐색 (evolutionary search)에 통합된 대규모 언어 모델 (LLMs)은 최근 미해결 수학적 추측, GPU 커널 설계, 과학 법칙 발견, 조합 퍼즐 (combinatorial puzzles)을 포함한 최적화 태스크 (optimization tasks)에서 최첨단 (state-of-the-art) 솔루션을 생성해냈습니다. 이를 달성하기 위해, 이전 연구들은 한 번에 하나의 타겟 태스크에만 탐색 스캐폴드 (search scaffolds)를 적용했기 때문에, 모든 새로운 문제는 처음부터 접근해야 하며 탐색 과정에서 축적된 경험은 모델이 시도를 마치는 즉시 폐기되었습니다. 이는 솔루션을 반복적으로 진화시키는 능력(예: 어느 부분을 어떻게 변이(mutate)할지 알거나, 언제 백트래킹(backtrack)할지 결정하는 능력)이 모델 자체가 아닌 스캐폴드에 완전히 남아있게 만듭니다. 모델 자체가 이러한 능력을 습득하고 이를 서로 다른 태스크에 걸쳐 재사용할 수 있는지 여부는 그동안 거의 검토되지 않았습니다. 이를 해결하기 위해, 우리는 진화 탐색 궤적 (evolutionary search trajectories)을 지도 학습 (supervision)으로 변환함으로써 LLM이 태스크 전반에 걸쳐 솔루션을 진화시키도록 가르치는 미드 트레이닝 (mid-training) 패러다임인 진화 미세 조정 (Evolution Fine-Tuning, EFT)을 소개합니다. 우리는 10개 도메인과 371개의 최적화 태스크를 아우르는 156K-궤적 데이터셋인 Finch Collection을 구축하였으며, 2B에서 9B 파라미터 규모의 오픈 소스 LLM들을 미세 조정하였습니다. 실증적으로, EFT는 태스크 간 일반화 (cross-task generalization) 능력을 부여합니다. 22개의 홀드아웃 (held-out) 태스크에 대해, 우리 모델은 베이스 모델 대비 평균 10.22% 더 높은 성능을 보였습니다. 나아가, 테스트 시간 강화학습 (test-time RL)과 결합했을 때, 우리 모델은 두 가지 원 채우기 (circle-packing) 태스크에서 최첨단 성능과 일치하였으며, Erdős 최소 중첩 문제 (Erdős minimum-overlap problem)에서는 베이스 모델의 성능을 능가했습니다. 따라서 EFT는 새로운 문제를 처음부터 해결하지 않는 범용 발견 에이전트 (general-purpose discovery agents)를 위한 "연습 단계 (practice phase)" 역할을 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

진화 미세 조정 (Evolution Fine-Tuning): 371개의 최적화 태스크를 통한 발견 학습

요약

핵심 포인트

댓글