arXiv논문2026. 05. 20. 11:00

Formal Skill: 효율적이고 정확한 LLM 에이전트를 위한 프로그래밍 가능한 런타임 기술 (Runtime Skills)

요약

기존의 비정형적인 자연어 기반 기술(Informal Skill)의 한계를 극복하기 위해, 실행 가능한 상태 머신과 훅 정책을 활용하는 런타임 네이티브 추상화인 'Formal Skill'을 제안합니다. 이를 구현한 오픈 소스 이벤트 기반 런타임인 FairyClaw는 Harness-Bench 테스트에서 토큰 효율성을 높이면서도 강력한 성능을 입증했습니다.

핵심 포인트

자연어 지침 대신 JSON 메타데이터, 액션 스키마, Python 실행기를 사용하는 Formal Skill 개념 도입
워크플로 상태와 정책 집행을 기술 내부로 통합하여 에이전트의 제어 가능성 향상
반복되는 프롬프트 텍스트를 실행 가능한 상태 머신으로 전환하여 토큰 효율성 극대화
오픈 소스 런타임 FairyClaw를 통해 실행 가능하고 조합 가능한 Formal Skill 구현

대규모 언어 모델 (Large Language Model, LLM) 에이전트는 도구와 기술이 모델의 추론을 신뢰할 수 있는 행동으로 전환할 수 있는 실제 작업 공간 내에서 점점 더 많이 활동하고 있습니다. 기존의 기술들은 대체로 비정형적(informal)인 상태로 남아 있습니다. Markdown 기술과 지침 팩(instruction packs)은 절차를 긴 자연어 문서로 인코딩하며, 함수 호출 (function calling), Model Context Protocol (MCP) 서버, 그리고 프레임워크 도구들은 개별 행동을 구조화하지만, 워크플로 상태 (workflow state), 정책 집행 (policy enforcement), 그리고 완료 규율 (completion discipline)을 기술 자체의 외부로 남겨두는 경우가 일반적입니다. 우리는 JSON 메타데이터 및 액션 스키마 (action schemas), 신뢰할 수 있는 Python 실행기 (executors), 훅 (hook)에 의해 제어되는 제어 로직, Formal Skill 라우팅, 그리고 기술 로컬 런타임 상태 (skill-local runtime state)를 통해 재사용 가능한 능력을 나타내는 런타임 네이티브 추상화인 Formal Skill을 소개합니다. 재사용 가능한 절차를 반복되는 프롬프트 텍스트에서 실행 가능한 상태 머신 (state machines) 및 훅 정책 (hook policies)으로 이동함으로써, Formal Skill은 에이전트에게 토큰 효율적이고 강제 가능한 제어 표면 (control surface)을 제공합니다. 우리는 실행 가능하고, 관찰 가능하며, 조합 가능한 Formal Skill을 위한 오픈 소스 이벤트 기반 런타임인 FairyClaw에 이 추상화를 구현했습니다. Harness-Bench에서 FairyClaw는 훨씬 적은 토큰을 사용하면서도 매우 경쟁력 있는 평균 점수를 획득하였으며, 특히 Formal Skill의 역할을 드러내는 작업에서 강력한 결과를 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Formal Skill: 효율적이고 정확한 LLM 에이전트를 위한 프로그래밍 가능한 런타임 기술 (Runtime Skills)

요약

핵심 포인트

댓글