라이브러리 드리프트 (Library Drift): 자기 진화형 LLM 스킬 라이브러리의 침묵하는 실패 모드 진단 및 해결

자기 진화형 (Self-evolving) 스킬 라이브러리는 우리가 '라이브러리 드리프트 (library drift)'라고 명명한 침묵하는 실패 모드에 직면해 있습니다. 결과 중심의 라이프사이클 관리 (lifecycle management) 없는 무제한적인 스킬 축적은 검색 성능 저하 (retrieval degradation), 거짓 양성 주입 (false-positive injections), 그리고 성능 정체 (performance stagnation)를 유발합니다. 최근의 평가에 따르면, LLM이 작성한 스킬은 +0.0pp의 이득을 주는 반면, 인간이 큐레이션한 스킬은 +16.2pp의 이득을 준다는 증상(SkillsBench)이 확인되었으나, 그 근저에 있는 메커니즘은 아직 격리되지 않았습니다. 본 연구에서는 (1) 재현 가능한 트리거를 제공합니다: 드리프트를 격리하는 절제 실험 (ablations) — 하나는 스킬 주입을 비활성화하며 (평탄한 바닥, +0.002), 다른 하나는 조기 은퇴를 강제합니다 (능동적 해악, -0.019); (2) 추적 수준의 진단 도구: 스킬별 기여도 점수 (contribution scores), 귀속 판결 (attribution verdicts), 그리고 라우터 참여 지표 (router engagement metrics)를 포함하는 추가 전용 증거 로그를 통해, 실패가 최종 작업 점수에 도달하기 전에 이를 가시화합니다; (3) 검증된 해결책: 최소한의 거버넌스 레시피 (결과 중심의 은퇴 + 제한된 활성 상한 + 메타 스킬 저작 사전 지식)를 제공하며, 이는 100라운드에 걸친 MBPP+ hard-100 테스트에서 홀드아웃 (held-out) pass@1을 0.258 베이스라인에서 후기 윈도우 평균 0.584 (이동 이득 +0.328)로 끌어올립니다. 8가지의 절제 실험을 통해 어떤 거버넌스 메커니즘이 핵심적인 역할을 하고 어떤 것이 포함되는지를 분해하여, 모든 자기 진화형 에이전트에서 라이브러리 드리프트를 진단할 수 있는 구체적인 플레이북을 제공합니다.

Insights

라이브러리 드리프트 (Library Drift): 자기 진화형 LLM 스킬 라이브러리의 침묵하는 실패 모드 진단 및 해결

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek