optimize_anything: 모든 텍스트 파라미터를 최적화하기 위한 범용 API

단일 LLM (Large Language Model) 기반 최적화 시스템이 근본적으로 다른 도메인에 걸친 전문화된 도구들과 대등한 성능을 낼 수 있을까요? 우리는 최적화 문제를 점수 함수 (scoring function)에 의해 평가되는 텍스트 산출물 (text artifact)을 개선하는 것으로 공식화할 때, 단일 작업 탐색 (single-task search), 문제 간 전이를 포함한 다중 작업 탐색 (multi-task search with cross-problem transfer), 그리고 보지 못한 입력에 대한 일반화 (generalization)를 지원하는 단일 AI 기반 최적화 시스템이 6개의 다양한 작업에서 최첨단 (state-of-the-art) 결과를 달성함을 보여줍니다. 우리 시스템은 Gemini Flash의 ARC-AGI 정확도를 거의 세 배로 높이는 (32.5%에서 89.5%로) 에이전트 아키텍처를 발견하고, 클라우드 비용을 40% 절감하는 스케줄링 알고리즘을 찾아내며, 87%가 PyTorch와 일치하거나 이를 능가하는 CUDA 커널을 생성하고, AlphaEvolve가 보고한 원 채우기 (circle packing) 솔루션 (n=26)보다 뛰어난 성능을 보입니다. 세 가지 도메인에 걸친 절제 연구 (Ablations) 결과, 실행 가능한 부가 정보 (actionable side information)가 점수 전용 피드백 (score-only feedback)보다 더 빠른 수렴과 실질적으로 더 높은 최종 점수를 제공하며, 다중 작업 탐색이 문제당 동일한 예산이 주어졌을 때 작업 간 전이 (cross-task transfer)를 통해 독립적인 최적화보다 우수한 성능을 보이고 그 이점이 관련 작업의 수에 따라 확장됨을 밝혀냈습니다. 종합적으로, 우리는 LLM 기반 탐색을 통한 텍스트 최적화가 전통적으로 도메인 특화 알고리즘을 필요로 했던 작업들을 단일 프레임워크 아래 통합하는 범용 문제 해결 패러다임임을 처음으로 보여줍니다. 우리는 https://github.com/gepa-ai/gepa 의 GEPA 프로젝트의 일환으로 여러 백엔드를 지원하는 optimize_anything을 오픈 소스로 공개합니다.

Insights

optimize_anything: 모든 텍스트 파라미터를 최적화하기 위한 범용 API

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.