SkillGraph: 에이전트를 위한 스킬 증강 강화학습 (Reinforcement Learning)

스킬 라이브러리는 대규모 언어 모델(LLM) 에이전트가 과거 상호작용 경험을 재사용할 수 있게 하지만, 기존의 대부분의 라이브러리는 스킬을 독립적인 항목으로 저장하고 의미적 유사성만으로 검색합니다. 이는 구성적 작업(compositional tasks)에 두 가지 주요 문제를 야기합니다. 첫째, 에이전트는 관련 스킬뿐만 아니라 이들이 서로 어떻게 의존하며 구축되는지 식별해야 합니다. 둘째, 시스템이 언제 스킬을 병합(merge), 분할(split) 또는 제거해야 하는지에 대한 구조적 단서가 부족하기 때문에 라이브러리 유지보수 또한 어렵습니다. 우리는 재사용 가능한 스킬을 방향성 그래프(directed graph)의 노드로 표현하고, 타입화된 엣지(typed edges)에 선행 조건(prerequisite), 향상(enhancement), 그리고 동시 발생(co-occurrence) 관계를 인코딩하는 SKILLGRAPH라는 프레임워크를 제안합니다. 새로운 작업을 주어진 경우, SKILLGRAPH는 개별 스킬뿐만 아니라 다단계 의사결정을 안내할 수 있는 순서화된 스킬 서브그래프(ordered skill subgraph)를 검색합니다. 이 그래프는 에이전트 궤적(agent trajectories)과 강화학습(RL) 피드백으로부터 지속적으로 업데이트되어, 스킬 라이브러리와 에이전트 정책 모두가 함께 개선될 수 있도록 합니다. ALFWorld, WebShop 및 7가지 검색 증강 QA 작업에 대한 실험 결과는 SKILLGRAPH가 메모리 증강 RL 방법론 대비 최첨단 성능을 달성했으며, 특히 여러 스킬의 조합을 요구하는 복잡한 작업에서 큰 향상을 보임을 보여줍니다.

Insights

SkillGraph: 에이전트를 위한 스킬 증강 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일