Skill-as-Pseudocode: LLM Agent를 위한 스킬 라이브러리의 의사코드 (Pseudocode) 리팩토링
요약
LLM 에이전트의 스킬 라이브러리를 자유 형식의 산문에서 타입이 지정된 의사코드로 변환하는 SaP 프레임워크를 제안합니다. 이를 통해 에이전트의 호출 오류를 줄이고, ALFWorld 테스트에서 토큰 사용량과 LLM 호출 횟수를 효과적으로 절감하며 성능을 향상시켰습니다.
핵심 포인트
- 산문 형태의 스킬 라이브러리를 타입 지정된 의사코드로 자동 변환
- 4단계 검증기를 통한 결정론적 품질 관리 및 계약 추출
- 에이전트의 입력 토큰 사용량 약 22.8% 감소
- LLM 호출 횟수 약 14.5% 감소 및 게임 승률 향상
LLM (Large Language Model) 에이전트를 위한 마크다운 (Markdown) 스킬 라이브러리는 자유 형식의 산문 (prose) 형태로 제공되며, 이로 인해 에이전트는 매번 검색할 때마다 입력 스키마 (input schema)와 구체적인 호출 구문 (invocation syntax)을 다시 도출해야만 합니다. 우리는 이것이 종종 "혼란 -> 재검색 -> 여전히 혼란"이라는 루프를 생성한다는 것을 관찰했습니다. 이 루프에서 에이전트는 부분적으로만 올바른 행동을 수행하고, 유익하지 않은 환경 피드백을 받으며, 동일한 산문을 다시 검색하게 됩니다. 우리는 결정론적 품질 관리 (deterministic quality control)를 갖춘, 마크다운 스킬 라이브러리를 타입이 지정된 의사코드 (typed pseudocode)로 자동 변환하는 Skill-as-Pseudocode (SaP)를 제안합니다. 하나 이상의 스킬에서 추출된 유사한 절차적 구절들의 각 클러스터에 대해, SaP는 타입이 지정된 계약 (typed contract)을 추출하고 이를 4단계 검증기(커버리지 (coverage), 바인딩 (binding), 교체 (replacement), 리스크 (risk))를 통해 필터링합니다. 승격된 계약들은 복원된 구체적인 행동 템플릿 (action templates)과 함께 재작성된 스킬 스켈레톤 (skill skeleton)에 인라인 (inline)으로 삽입되어, 에이전트에게 두 가지 상호 보완적인 신호를 제공합니다: 즉, 스킬이 무엇을 하는지에 대한 타입 지정된 시그니처 (typed signature)와 이를 어떻게 호출하는지에 대한 구체적인 템플릿입니다. 세 개의 시드 (seed)를 통합하여 gpt-4o-mini로 수행한 134개 게임의 ALFWorld 미학습 (unseen) 분할 데이터셋 테스트 결과, SaP는 Graph-of-Skills (GoS) 베이스라인이 402개 쌍 게임 중 47승을 거둔 것에 비해 82승을 기록하였으며 (통합 McNemar p = 8.2e-5), 게임당 입력 토큰 (input tokens)은 -22.8 +/- 6.4%, LLM 호출 (LLM calls)은 -14.5 +/- 4.1% 감소했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기