SkillGraph: 에이전트를 위한 스킬 증강 강화학습 (Reinforcement Learning)
요약
SKILLGRAPH는 대규모 언어 모델(LLM) 에이전트가 단순히 독립적인 스킬을 검색하는 것을 넘어, 스킬 간의 의존성과 구조적 관계를 이해하고 활용할 수 있도록 설계된 프레임워크입니다. 이 프레임워크는 재사용 가능한 스킬들을 방향성 그래프 노드로 표현하고, 선행 조건, 향상, 동시 발생 등의 타입화된 엣지를 사용하여 복잡한 작업 흐름을 모델링합니다. SKILLGRAPH는 강화학습(RL) 피드백을 통해 지속적으로 업데이트되며, 에이전트의 정책과 스킬 라이브러리 모두를 개선하여 복합적인 작업을 수행하는 데 최적화되어 있습니다.
핵심 포인트
- 스킬 그래프 구조 도입: 재사용 가능한 스킬들을 방향성 그래프 노드로 표현하고 관계(엣지)를 명시합니다.
- 구조적 의존성 모델링: 단순 검색을 넘어, 선행 조건, 향상 등 타입화된 엣지를 통해 스킬 간의 복잡한 상호작용을 포착합니다.
- 순서화된 서브그래프 검색: 주어진 작업에 맞춰 개별 스킬이 아닌, 다단계 의사결정을 안내하는 순서가 있는 스킬 조합(subgraph)을 추출합니다.
- 강화학습 기반 업데이트: 에이전트의 실제 궤적과 RL 피드백을 활용하여 스킬 라이브러리와 정책을 지속적으로 개선합니다.
- 복잡한 작업 성능 향상 입증: ALFWorld, WebShop 등 복합적인 조합 능력을 요구하는 다양한 환경에서 최첨단 성능을 달성했습니다.
스킬 라이브러리는 대규모 언어 모델(LLM) 에이전트가 과거 상호작용 경험을 재사용할 수 있게 하지만, 기존의 대부분의 라이브러리는 스킬을 독립적인 항목으로 저장하고 의미적 유사성만으로 검색합니다. 이는 구성적 작업(compositional tasks)에 두 가지 주요 문제를 야기합니다. 첫째, 에이전트는 관련 스킬뿐만 아니라 이들이 서로 어떻게 의존하며 구축되는지 식별해야 합니다. 둘째, 시스템이 언제 스킬을 병합(merge), 분할(split) 또는 제거해야 하는지에 대한 구조적 단서가 부족하기 때문에 라이브러리 유지보수 또한 어렵습니다. 우리는 재사용 가능한 스킬을 방향성 그래프(directed graph)의 노드로 표현하고, 타입화된 엣지(typed edges)에 선행 조건(prerequisite), 향상(enhancement), 그리고 동시 발생(co-occurrence) 관계를 인코딩하는 SKILLGRAPH라는 프레임워크를 제안합니다. 새로운 작업을 주어진 경우, SKILLGRAPH는 개별 스킬뿐만 아니라 다단계 의사결정을 안내할 수 있는 순서화된 스킬 서브그래프(ordered skill subgraph)를 검색합니다. 이 그래프는 에이전트 궤적(agent trajectories)과 강화학습(RL) 피드백으로부터 지속적으로 업데이트되어, 스킬 라이브러리와 에이전트 정책 모두가 함께 개선될 수 있도록 합니다. ALFWorld, WebShop 및 7가지 검색 증강 QA 작업에 대한 실험 결과는 SKILLGRAPH가 메모리 증강 RL 방법론 대비 최첨단 성능을 달성했으며, 특히 여러 스킬의 조합을 요구하는 복잡한 작업에서 큰 향상을 보임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기