라이브러리 드리프트 (Library Drift): 자기 진화형 LLM 스킬 라이브러리의 침묵하는 실패 모드 진단 및 해결
요약
자기 진화형 스킬 라이브러리는 '라이브러리 드리프트'라는 침묵하는 실패 모드에 직면해 있습니다. 이는 결과 중심의 관리 없이 무제한적으로 스킬이 축적되면서 검색 성능 저하, 거짓 양성 주입 등을 유발합니다. 본 연구는 이 드리프트를 진단하기 위한 재현 가능한 트리거와 추적 수준의 전용 진단 도구를 제공하며, 최소한의 거버넌스 레시피(결과 중심 은퇴, 활성 상한 제한 등)를 통해 성능을 크게 개선하는 해결책을 제시합니다.
핵심 포인트
- 자기 진화형 스킬 라이브러리는 관리 부재로 인해 '라이브러리 드리프트'라는 실패 모드를 겪는다.
- LLM이 작성한 스킬은 인간이 큐레이션한 스킬보다 성능 기여도가 낮다는 증거가 확인되었다 (SkillsBench).
- 연구는 스킬별 기여도 점수, 귀속 판결 등 추적 수준의 진단 도구를 제공하여 실패를 사전에 가시화한다.
- 최소한의 거버넌스 레시피(은퇴 정책, 활성 상한 제한) 적용 시 성능이 크게 향상됨을 입증했다 (pass@1 +0.328).
- 다양한 절제 실험을 통해 라이브러리 드리프트 진단 및 해결에 필요한 구체적인 플레이북을 제공한다.
자기 진화형 (Self-evolving) 스킬 라이브러리는 우리가 '라이브러리 드리프트 (library drift)'라고 명명한 침묵하는 실패 모드에 직면해 있습니다. 결과 중심의 라이프사이클 관리 (lifecycle management) 없는 무제한적인 스킬 축적은 검색 성능 저하 (retrieval degradation), 거짓 양성 주입 (false-positive injections), 그리고 성능 정체 (performance stagnation)를 유발합니다. 최근의 평가에 따르면, LLM이 작성한 스킬은 +0.0pp의 이득을 주는 반면, 인간이 큐레이션한 스킬은 +16.2pp의 이득을 준다는 증상(SkillsBench)이 확인되었으나, 그 근저에 있는 메커니즘은 아직 격리되지 않았습니다. 본 연구에서는 (1) 재현 가능한 트리거를 제공합니다: 드리프트를 격리하는 절제 실험 (ablations) — 하나는 스킬 주입을 비활성화하며 (평탄한 바닥, +0.002), 다른 하나는 조기 은퇴를 강제합니다 (능동적 해악, -0.019); (2) 추적 수준의 진단 도구: 스킬별 기여도 점수 (contribution scores), 귀속 판결 (attribution verdicts), 그리고 라우터 참여 지표 (router engagement metrics)를 포함하는 추가 전용 증거 로그를 통해, 실패가 최종 작업 점수에 도달하기 전에 이를 가시화합니다; (3) 검증된 해결책: 최소한의 거버넌스 레시피 (결과 중심의 은퇴 + 제한된 활성 상한 + 메타 스킬 저작 사전 지식)를 제공하며, 이는 100라운드에 걸친 MBPP+ hard-100 테스트에서 홀드아웃 (held-out) pass@1을 0.258 베이스라인에서 후기 윈도우 평균 0.584 (이동 이득 +0.328)로 끌어올립니다. 8가지의 절제 실험을 통해 어떤 거버넌스 메커니즘이 핵심적인 역할을 하고 어떤 것이 포함되는지를 분해하여, 모든 자기 진화형 에이전트에서 라이브러리 드리프트를 진단할 수 있는 구체적인 플레이북을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기