더 많은 기술이 더 나쁜 에이전트를 만드는가? 기술 라이브러리 확장 시 성능을 저하시키는 기술 섀도잉 (Skill Shadowing)
요약
LLM 에이전트의 기술 라이브러리가 확장될 때 발생하는 성능 저하 현상을 분석한 연구입니다. 성능 하락의 주요 원인이 컨텍스트 오버헤드가 아닌, 잘못된 기술을 선택하게 되는 '기술 섀도잉(Skill Shadowing)' 효과임을 규명했습니다.
핵심 포인트
- 기술 라이브러리 확장 시 성능이 최대 21% 하락할 수 있음
- 성능 저하의 핵심 원인은 기술 선택 실패인 '기술 섀도잉'임
- 확장된 컨텍스트로 인한 '컨텍스트 오버헤드'의 영향은 미미함
- 에이전트 성능 향상을 위해 기술 선택 메커니즘 개선이 필수적임
기술 라이브러리 (Skill libraries)는 LLM 에이전트가 필요에 따라 작업별 지침을 로드할 수 있게 하여, 비전문가 사용자가 어떤 기술이 존재하는지 또는 어떻게 작동하는지 알지 못하더라도 자연어를 통해 도메인 특화 작업을 해결할 수 있도록 합니다. 그러나 라이브러리가 커질수록 성능이 저하됩니다. 유용한 소수의 기술 세트에서 202개의 기술 라이브러리로 확장할 때 성능이 최대 21%까지 하락합니다. 본 연구에서는 이러한 성능 저하를 기존에 유용하다고 알려진 기술 라이브러리를 로드했을 때와 전체 라이브러리를 로드했을 때 사이의 통과율 (pass rate) 하락으로 공식화합니다. 나아가, 우리는 기술 호출 (skill invocation) — 에이전트가 궤적 (trajectory) 동안 어떤 기술을 선택하는지 — 을 조건으로 하여 통과율 하락을 두 가지 효과로 분해할 것을 제안합니다: 라이브러리가 확장됨에 따라 에이전트가 잘못된 기술을 더 자주 선택하게 되는 extit{기술 섀도잉 (skill shadowing)}, 그리고 선택이 올바를 때조차 확장된 컨텍스트 (context)가 실행을 저하시키는 extit{컨텍스트 오버헤드 (context overhead)}입니다. 우리는 통과율 하락에 미치는 각 효과의 영향 크기를 규명하기 위해 두 효과에 대한 상한선 (upper bounds)을 도출합니다. 효과와 그 상한선에 대한 우리의 실증적 추정치는 모두 extit{기술 섀도잉 (skill shadowing)} 효과가 라이브러리 크기에 따라 증가하며 성능 저하에 크게 기여하는 반면, extit{컨텍스트 오버헤드 (context overhead)} 효과는 작고 0과 구별할 수 없는 수준임을 보여줍니다. 관찰된 이러한 비대칭성은 기술 라이브러리를 확장할 때 주요 병목 현상이 확장된 컨텍스트가 아니라 기술 선택 실패임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기