SkillCoach: 에이전트의 기술 사용(Skill-Use) 평가 및 향상을 위한 자기 진화형 루브릭 (Self-Evolving

기술(Skills)은 SOP(표준 운영 절차), 도메인 규칙, 도구 워크플로우, 스크립트 및 검증 루틴을 인코딩하며 LLM 에이전트를 위한 재사용 가능한 운영 계층이 되어가고 있습니다. 현실적인 기술 저장소(skill repositories)에서는 중복되는 기술들로 인해 신뢰할 수 있는 기술 사용(skill-use)이 어려워집니다. 최종 검증기(Final verifier)의 성공 여부는 평가와 학습 모두에 있어 너무 거칠기(coarse) 때문에, 에이전트가 방해되는 기술(distractor skills)을 선택하거나, 필수 단계를 건너뛰거나, 워크플로우를 잘못 구성하거나, 최종 점검을 누락하는 등의 시행착오를 겪으면서도 결과적으로 통과할 수 있습니다. 우리는 에이전트의 기술 사용을 평가하고 향상시키기 위한 자기 진화형 루브릭(self-evolving rubric) 프레임워크인 SkillCoach를 소개합니다. SkillCoach는 실제 실행(real rollouts)으로부터 기술에 기반한 프로세스 루브릭(skill-grounded process rubrics)을 도출하며, 기술 선택(skill selection), 기술 준수(skill following), 기술 구성(skill composition), 그리고 기술 기반 성찰(skill-grounded reflection)이라는 네 가지 차원을 따라 궤적(trajectories)을 평가합니다. 이는 외부 검증기를 별도의 결과 신호(outcome signal)로 유지함으로써, 프로세스의 품질을 우연한 작업 성공과 구분할 수 있게 합니다. 진화된 루브릭은 고품질 학습 궤적을 선택하기 위한 프로세스 감독(process supervision) 역할도 수행합니다. 실험 결과, 진화된 루브릭은 평가 품질을 실질적으로 개선하고, 최종 정확도에 의해 가려진 실패를 드러내며, 에이전트의 기술 사용을 향상시키기 위해 결과 중심 필터링(outcome-only filtering)보다 더 강력한 감독 신호를 제공함을 보여줍니다.

Insights

SkillCoach: 에이전트의 기술 사용(Skill-Use) 평가 및 향상을 위한 자기 진화형 루브릭 (Self-Evolving

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실