arXiv논문2026. 05. 25. 16:47

SkillOpt: 자기 진화형 에이전트 기술을 위한 실행 전략

요약

SkillOpt는 에이전트의 기술(skill)을 딥러닝 최적화 방식처럼 체계적으로 진화시키는 최초의 텍스트 공간 최적화 도구입니다. 별도의 추론 비용 추가 없이 편집 과정을 통해 기술 문서를 개선하며, 다양한 벤치마크와 모델에서 압도적인 성능 향상을 입증했습니다.

핵심 포인트

에이전트 기술을 위한 체계적인 텍스트 공간 최적화 도구 제안
추론 시간의 추가 모델 호출 없이 안정적인 기술 훈련 가능
Codex, Claude Code 등 다양한 환경에서 최고 성능 기록
모델 규모 및 실행 환경 간의 뛰어난 전이 성능 확인

오늘날의 에이전트 기술 (Agent skills)은 수작업으로 제작되거나, 단 한 번의 생성 (one-shot)으로 만들어지거나, 느슨하게 제어된 자기 수정 (self-revision)을 통해 진화합니다. 이 중 그 어떤 것도 기술을 위한 딥러닝 최적화 도구 (deep-learning optimizer)처럼 동작하지 않으며, 피드백 하에서 시작점보다 안정적으로 성능을 향상시키지도 못합니다. 우리는 기술이 가중치 공간 최적화 (weight-space optimization)를 재현 가능하게 만드는 것과 동일한 규율을 가지고, 동결된 에이전트 (frozen agent)의 외부 상태 (external state)로서 훈련되어야 한다고 주장합니다. SkillOpt는 우리가 알기로 에이전트 기술을 위한 최초의 체계적이고 제어 가능한 텍스트 공간 최적화 도구 (text-space optimizer)입니다. 별도의 최적화 모델 (optimizer model)이 점수가 매겨진 롤아웃 (rollouts)을 단일 기술 문서에 대한 제한된 추가/삭제/교체 편집 (add/delete/replace edits)으로 변환하며, 편집은 검증용 점수 (held-out validation score)를 엄격히 개선할 때만 수락됩니다. 텍스트 기반 학습률 예산 (textual learning-rate budget), 거부된 편집 버퍼 (rejected-edit buffer), 그리고 에포크 단위의 느린/메타 업데이트 (epoch-wise slow/meta update)는 배포 시 추론 시간 모델 호출 (inference-time model calls)을 전혀 추가하지 않으면서도 기술 훈련을 안정적으로 만듭니다. 6개의 벤치마크, 7개의 대상 모델, 3개의 실행 하네스 (execution harnesses; 직접 채팅, Codex, Claude Code)에 걸쳐, SkillOpt는 평가된 52개의 (모델, 벤치마크, 하네스) 셀 모두에서 최고 성능을 기록하거나 공동 1위를 차지했으며, 인간, one-shot LLM, Trace2Skill, TextGrad, GEPA, EvoSkill 기술 등 모든 개별 셀 경쟁자들을 능가했습니다. GPT-5.5에서 SkillOpt는 직접 채팅에서 평균 무기술 정확도 (no-skill accuracy)를 +23.5포인트, Codex 에이전트 루프 내부에서 +24.8포인트, Claude Code 내부에서 +19.1포인트 향상시켰습니다. 전이 실험 (Transfer experiments)을 통해 최적화된 기술 아티팩트 (skill artifacts)가 모델 규모를 넘나들 때, Codex와 Claude Code 실행 환경 사이에서, 그리고 추가 최적화 없이 인접한 수학 벤치마크로 이동했을 때도 가치를 유지함을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SkillOpt: 자기 진화형 에이전트 기술을 위한 실행 전략

요약

핵심 포인트

댓글