arXiv논문2026. 06. 16. 22:53

Skill-to-LoRA: 기술 사용에서 토큰 효율적인 LLM 에이전트를 위한 행동 학습으로

요약

에이전트의 기술 문서(SKILL.md)를 런타임에 반복 주입하는 대신, 이를 기술 특화 LoRA 어댑터로 변환하는 Skill-to-LoRA(S2L) 방식을 제안합니다. S2L은 토큰 비용을 절감하면서도 에이전트의 작업 수행 능력을 유지하거나 향상시킵니다.

핵심 포인트

기술 문서를 LoRA 어댑터로 변환하여 토큰 효율성 증대
Qwen2.5-27B 기반 실험에서 통과율 및 토큰 비용 절감 확인
런타임 컨텍스트 주입 없이 동적 로딩을 통한 행동 모델링
기술 특화 어댑터 정렬이 성능 향상의 핵심 요소임

에이전트 기술(Agent skills)은 일반적으로 SKILL.md 파일로 배포됩니다. 이는 워크플로(workflows), 도구(tools), 리소스(resources) 및 도메인 관례(domain conventions)를 설명하는 사람이 읽을 수 있는 절차적 문서입니다. 이러한 설계는 검토와 재사용에는 편리하지만, 동일한 재사용 가능한 절차를 런타임 컨텍스트(runtime context)에 반복적으로 주입해야 한다는 요구사항이 있습니다. 우리는 런타임 기술 텍스트를 기술 특화 LoRA 어댑터(LoRA adapters)로 대체하는 행동 중심의 기술 표현 방식인 Skill-to-LoRA(S2L)를 제안합니다. S2L은 기술 문서 자체를 압축하는 대신, 기술 텍스트에 의해 유도되는 행동 변화를 모델링합니다. 오프라인(offline)에서는 전체 SKILL.md를 사용하여 기술 가이드 데몬스트레이션(skill-guided demonstrations)을 합성하며, 온라인(online)에서는 전체 문서를 생략하고 학습된 기술 행동을 활성화하기 위해 해당 LoRA 어댑터를 동적으로 로드합니다. 우리는 SWE-Skills-Bench의 21개 기술 서브셋에 대해 Qwen3.6-27B를 사용하여 S2L을 평가했습니다. 기술 없음(no-skill) 및 전체 기술 텍스트(Full Skill Text) 베이스라인과 비교했을 때, S2L은 통과율(pass rate)을 각각 2.9 및 5.2 퍼센트 포인트 향상시키는 동시에, 전체 기술 텍스트 프롬프팅(Full Skill Text prompting) 대비 스텝당 토큰 비용을 6.6% 절감했습니다. S2L은 21개 기술 중 18개에서 전체 기술 텍스트와 대등하거나 성능이 우수했으며, 21개 기술 중 15개에서 기술 없음 베이스라인보다 성능이 우수했습니다. 대조 실험(Control experiments)을 통해 이러한 이득이 기술 특화 어댑터 정렬(adapter alignment)에 달려 있음을 추가로 확인했습니다. 잘못된 LoRA(Wrong-LoRA)와 공유된 LoRA(Shared-LoRA)는 모두 성능을 저하시켰습니다. 이러한 결과는 많은 절차적 에이전트 기술이 런타임 지침에서 학습 가능하고 동적으로 로드 가능한 행동 모듈로 변환될 수 있음을 시사합니다. 코드는 승인 시 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Skill-to-LoRA: 기술 사용에서 토큰 효율적인 LLM 에이전트를 위한 행동 학습으로

요약

핵심 포인트

댓글