Reddit요약2026. 05. 26. 19:55

SkillOpt: 마크다운 스킬 파일을 적절한 최적화 메커니즘을 갖춘 학습 가능한 파라미터로 취급

요약

에이전트의 마크다운 스킬 파일을 학습 가능한 파라미터로 취급하여 최적화하는 SkillOpt 방법론을 소개합니다. 엄격한 검증 게이트를 통해 성능이 개선된 편집 사항만을 수용함으로써 효율적인 스킬 최적화를 달성합니다.

핵심 포인트

마크다운 스킬 파일을 최적화 가능한 파라미터로 공식화
단계별 편집 예산 제한이 성능 유지의 핵심 요소
최적화된 스킬 적용 시 소형 모델도 프론티어 모델 수준 성능 달성
자동 채점기가 필요한 작업(코드, 스프레드시트)에 최적화됨

많은 에이전트 빌더(agent builders)들이 임시방편(ad hoc)으로 수행해 오던 방식을 공식화한 논문이 최근 발표되었습니다. 이들은 프론티어 모델(frontier model)을 사용하여 마크다운 스킬 파일에 대한 제한된 편집(추가/삭제/교체)을 제안하고, 이후 모든 편집 사항을 별도의 검증 세트(held out validation set)를 통해 검증(gate)합니다. 오직 엄격한 개선 사항만이 수용되며, 동일한 성능(ties)은 거부되고, 거부된 편집은 다음 라운드를 위한 부정적 신호(negative signal)가 됩니다.

주목할 만한 몇 가지 사항:

최상의 스킬은 수많은 제안 중 1~~4개의 수용된 편집을 통해 수렴합니다. 단계당 4~~8개의 편집 예산(edit budget)이 가장 효과적이며, 제한을 없애면 성능이 붕괴됩니다. 최종 스킬의 중앙값은 약 920 토큰(tokens)입니다.

Codex에서 최적화된 스킬은 아무런 수정 없이 Claude Code로 전송되었으며, SpreadsheetBench에서 +59.7의 점수를 얻었습니다. 또한, 최적화된 스킬을 가진 GPT 4.1 nano는 절차적 벤치마크(procedural benchmarks)에서 프론티어 모델과 거의 대등한 성능을 보였습니다.

한계점은 검증 게이트(validation gate)가 명확한 정답을 가진 자동 채점기(auto grader)를 필요로 한다는 것입니다. 코드와 스프레드시트에는 작동하지만, 개방형(open ended) 작업에는 적용하기 어렵습니다.

논문: https://arxiv.org/pdf/2605.23904

AI 자동 생성 콘텐츠

원문 바로가기

SkillOpt: 마크다운 스킬 파일을 적절한 최적화 메커니즘을 갖춘 학습 가능한 파라미터로 취급

요약

핵심 포인트

댓글