LLM 에이전트를 위한 생성적 기술 조합 (Generative Skill Composition)

최근의 LLM 에이전트들은 복잡한 과업을 해결하기 위해 기술 (skills)의 도움을 받고 있습니다. 기술은 샌드박스 환경 설정, 테스트 스위트 실행, 또는 여러 파일에 걸친 함수 리팩토링 (refactoring)과 같이 특화된 작업을 수행하기 위한 절차적 지식과 지침의 모듈형 패키지를 캡슐화합니다. 기술 라이브러리가 성장하고 다양한 과업 및 도메인에서 재사용 가능해짐에 따라, 적절한 기술 조합 (skill composition)을 선택하는 것이 핵심적인 병목 현상으로 떠올랐습니다. 기존의 접근 방식은 두 가지 범주로 나뉩니다. 하나는 에이전트의 추론을 전체 기술 컬렉션에 노출하는 방식이며, 다른 하나는 임베딩 (embeddings) 또는 LLM 기반의 재순위화기 (rerankers)를 통해 기술 검색 (skill retrieval)을 수행하는 방식입니다. 두 방식 모두 유용한 통찰을 제공하지만, 어떤 기술을, 얼마나 많이, 그리고 어떤 순서로 사용할지에 대한 공동 결정인 기술 조합의 구조적 특성—서로 분리될 수 없는 세 가지 차원—을 놓치고 있습니다. 우리는 이를 구조화된 기술 조합 (structured skill composition)으로 공식화합니다. 즉, 과업과 기술 라이브러리가 주어졌을 때, 활성화된 부분 집합, 개수, 그리고 실행 순서를 공동으로 지정하는 실행 가능한 기술 계획 (skill plan)을 예측하는 것입니다. 우리는 구조화된 기술 조합을 과업 조건부 기술 시퀀스 예측 (task-conditioned skill sequence prediction)으로 구현하는 SkillComposer를 제안합니다. SkillComposer는 기술 식별자 (skill identifiers)에 대해 제약된 자기회귀 디코더 (constrained autoregressive decoder)를 사용하여, 부분 집합, 개수, 순서가 단일 디코딩 패스에서 공동으로 나타나게 하며, 연속적인 기술 간의 의존성을 자연스럽게 포착합니다. 우리는 실제 사람이 큐레이션한 기술 라이브러리로부터 과업-조합 쌍으로 구성된 학습 세트를 구축했습니다. 그런 다음 두 가지 축을 따라 SkillComposer를 평가했습니다: 홀드아웃 (held-out) 테스트 세트에 대한 조합 품질, 그리고 두 개의 프로덕션급 코딩 에이전트에 대한 SkillsBench에서의 다운스트림 과업 성공률입니다. GPT-5.2-Codex 및 Gemini-3-Pro-Preview에서 SkillComposer는 기술 미사용 베이스라인 대비 통과율을 각각 +23.1, +18.2pp 향상시켰으며, 상위 3개의 검색 방식 (top-3 retrieval)을 능가하고 더 낮은 프롬프트 토큰 비용으로 골드-기술 검색 (gold-skill retrieval) 상한선에 도달했습니다.

Insights

LLM 에이전트를 위한 생성적 기술 조합 (Generative Skill Composition)

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기