optimize_anything: 모든 텍스트 파라미터를 최적화하기 위한 범용 API
요약
본 논문은 단일 LLM 기반 최적화 시스템이 다양한 도메인의 전문화된 작업에서 최고 수준의 성능을 달성할 수 있음을 입증합니다. 이 시스템은 텍스트 산출물을 점수 함수로 평가하여 개선하는 방식으로, 단일 작업 탐색부터 문제 간 전이를 포함한 다중 작업 탐색까지 지원합니다. 연구 결과, Gemini Flash 대비 ARC-AGI 정확도를 크게 향상시키고, 클라우드 비용 절감 알고리즘을 찾으며, CUDA 커널 생성 등 다양한 분야에서 뛰어난 범용성을 보여주었습니다.
핵심 포인트
- 단일 LLM 기반 최적화 시스템이 여러 도메인에 걸쳐 전문화된 작업과 대등한 성능을 낼 수 있음을 입증함.
- 시스템은 단일 작업 탐색 및 문제 간 전이를 포함하는 다중 작업 탐색을 지원하여 범용성을 높임.
- Gemini Flash의 ARC-AGI 정확도를 크게 향상시키고, 클라우드 비용 절감 알고리즘 발견 등 다양한 실질적 성과를 달성함.
- 실행 가능한 부가 정보(actionable side information)가 점수 전용 피드백보다 더 나은 최적화 결과를 제공함을 확인함.
- LLM 기반 탐색을 통해 전통적으로 도메인 특화 알고리즘이 필요했던 작업들을 단일 프레임워크로 통합하는 범용 문제 해결 패러다임을 제시함.
단일 LLM (Large Language Model) 기반 최적화 시스템이 근본적으로 다른 도메인에 걸친 전문화된 도구들과 대등한 성능을 낼 수 있을까요? 우리는 최적화 문제를 점수 함수 (scoring function)에 의해 평가되는 텍스트 산출물 (text artifact)을 개선하는 것으로 공식화할 때, 단일 작업 탐색 (single-task search), 문제 간 전이를 포함한 다중 작업 탐색 (multi-task search with cross-problem transfer), 그리고 보지 못한 입력에 대한 일반화 (generalization)를 지원하는 단일 AI 기반 최적화 시스템이 6개의 다양한 작업에서 최첨단 (state-of-the-art) 결과를 달성함을 보여줍니다. 우리 시스템은 Gemini Flash의 ARC-AGI 정확도를 거의 세 배로 높이는 (32.5%에서 89.5%로) 에이전트 아키텍처를 발견하고, 클라우드 비용을 40% 절감하는 스케줄링 알고리즘을 찾아내며, 87%가 PyTorch와 일치하거나 이를 능가하는 CUDA 커널을 생성하고, AlphaEvolve가 보고한 원 채우기 (circle packing) 솔루션 (n=26)보다 뛰어난 성능을 보입니다. 세 가지 도메인에 걸친 절제 연구 (Ablations) 결과, 실행 가능한 부가 정보 (actionable side information)가 점수 전용 피드백 (score-only feedback)보다 더 빠른 수렴과 실질적으로 더 높은 최종 점수를 제공하며, 다중 작업 탐색이 문제당 동일한 예산이 주어졌을 때 작업 간 전이 (cross-task transfer)를 통해 독립적인 최적화보다 우수한 성능을 보이고 그 이점이 관련 작업의 수에 따라 확장됨을 밝혀냈습니다. 종합적으로, 우리는 LLM 기반 탐색을 통한 텍스트 최적화가 전통적으로 도메인 특화 알고리즘을 필요로 했던 작업들을 단일 프레임워크 아래 통합하는 범용 문제 해결 패러다임임을 처음으로 보여줍니다. 우리는 https://github.com/gepa-ai/gepa 의 GEPA 프로젝트의 일환으로 여러 백엔드를 지원하는 optimize_anything을 오픈 소스로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기