SkillCoach: 에이전트의 기술 사용(Skill-Use) 평가 및 향상을 위한 자기 진화형 루브릭 (Self-Evolving
요약
SkillCoach는 LLM 에이전트의 기술 사용(Skill-Use)을 평가하고 향상시키기 위한 자기 진화형 루브릭 프레임워크입니다. 실제 실행 데이터로부터 프로세스 루브릭을 도출하여 기술 선택, 준수, 구성, 성찰의 네 가지 차원을 정밀하게 평가합니다.
핵심 포인트
- 에이전트의 기술 사용 능력을 평가하는 자기 진화형 루브릭 프레임워크 제안
- 결과 중심 평가의 한계를 극복하기 위해 프로세스 기반의 정밀한 평가 수행
- 기술 선택, 준수, 구성, 성찰의 4가지 차원으로 에이전트 궤적 분석
- 진화된 루브릭을 통해 고품질 학습 궤적을 선택하는 프로세스 감독 기능 제공
- 실험 결과, 결과 중심 필터링보다 강력한 감독 신호임을 입증
기술(Skills)은 SOP(표준 운영 절차), 도메인 규칙, 도구 워크플로우, 스크립트 및 검증 루틴을 인코딩하며 LLM 에이전트를 위한 재사용 가능한 운영 계층이 되어가고 있습니다. 현실적인 기술 저장소(skill repositories)에서는 중복되는 기술들로 인해 신뢰할 수 있는 기술 사용(skill-use)이 어려워집니다. 최종 검증기(Final verifier)의 성공 여부는 평가와 학습 모두에 있어 너무 거칠기(coarse) 때문에, 에이전트가 방해되는 기술(distractor skills)을 선택하거나, 필수 단계를 건너뛰거나, 워크플로우를 잘못 구성하거나, 최종 점검을 누락하는 등의 시행착오를 겪으면서도 결과적으로 통과할 수 있습니다. 우리는 에이전트의 기술 사용을 평가하고 향상시키기 위한 자기 진화형 루브릭(self-evolving rubric) 프레임워크인 SkillCoach를 소개합니다. SkillCoach는 실제 실행(real rollouts)으로부터 기술에 기반한 프로세스 루브릭(skill-grounded process rubrics)을 도출하며, 기술 선택(skill selection), 기술 준수(skill following), 기술 구성(skill composition), 그리고 기술 기반 성찰(skill-grounded reflection)이라는 네 가지 차원을 따라 궤적(trajectories)을 평가합니다. 이는 외부 검증기를 별도의 결과 신호(outcome signal)로 유지함으로써, 프로세스의 품질을 우연한 작업 성공과 구분할 수 있게 합니다. 진화된 루브릭은 고품질 학습 궤적을 선택하기 위한 프로세스 감독(process supervision) 역할도 수행합니다. 실험 결과, 진화된 루브릭은 평가 품질을 실질적으로 개선하고, 최종 정확도에 의해 가려진 실패를 드러내며, 에이전트의 기술 사용을 향상시키기 위해 결과 중심 필터링(outcome-only filtering)보다 더 강력한 감독 신호를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기