대규모 언어 모델 (LLM) 에이전트의 기술 가용성 및 제시 세분성: SkillsBench 통제 연구
요약
LLM 에이전트에게 제공되는 기술 문서의 세분성이 작업 성공률에 미치는 영향을 연구한 논문입니다. 실험 결과, 기술 가용성은 성능 향상에 결정적이지만, 가이드의 추상화 수준이나 예시 추가 여부는 모델에 따라 효과가 작고 불확실함을 확인했습니다.
핵심 포인트
- 기술 가용성이 높을수록 LLM 에이전트의 작업 성공률이 크게 향상됨
- 가이드의 추상화 수준(고/저)에 따른 성능 차이는 모델별로 상이함
- 실행 예시 추가가 성능에 미치는 영향은 통계적으로 미미함
- SkillsBench를 통한 기술 지식 제시 방식의 통제 연구 수행
기술 문서 (Skill documents)는 추론 시점에 대규모 언어 모델 (Large-Language-Model, LLM) 에이전트에게 절차적 지식 (procedural knowledge)을 제공합니다. 본 논문은 통제된 기술 지식의 제시 세분성 (presentation granularity)이 다운스트림 작업 (downstream task)의 성공 여부를 변화시키는지 연구합니다. 실험에는 공식 오라클 실행 (official oracle runs)을 통해 검증된 30개 작업의 도메인 균형 서브셋인 고정된 SkillsBench 버전, 두 가지 추론 가능 모델 구성, 여섯 가지 기술 조건, 그리고 각 작업-조건-모델 셀(cell)당 5회의 시행 (trials)이 사용되었습니다. 기술 가용성 (Skill availability)은 가장 명확한 경험적 신호입니다. 기술이 없는 경우와 비교했을 때, 기술 조건은 GPT-5.5의 작업 평균 통과율을 26.736.0%포인트 증가시켰으며, DeepSeek V4-Flash의 경우 18.026.0%포인트 증가시켰습니다. 최종 데이터는 모델당 900행씩 총 1,800행을 포함합니다. 작업 (task)은 추론 단위입니다. 30개 작업에 대해 쌍체 대비 (paired contrasts)를 추정하기 전, 각 작업-조건-모델 셀 내에서 5회의 시행이 집계됩니다. 주요 제시 대비 (presentation contrasts)는 더 작고 불확실합니다. 저추상화 가이드 (Low-abstraction guidance)는 고추상화 가이드 (high-abstraction guidance)와 비교하여 GPT-5.5에서는 +0.7%포인트, DeepSeek V4-Flash에서는 -6.7%포인트의 차이를 보였으며, 두 경우 모두 95% 부트스트랩 신뢰 구간 (bootstrap confidence intervals)이 0을 통과합니다. 중간 추상화 가이드 (medium-abstraction guidance)에 하나의 실행 예시 (worked example)를 추가하는 것은 예시가 없는 변형과 비교하여 +0.7% 및 +1.3%포인트의 차이를 보입니다. 평균 보상 (Mean-reward) 강건성 검사 (robustness checks)에서도 동일한 실질적 결론이 유지됩니다. 이 통제된 서브셋에서 기술 가용성은 기술이 없는 경우보다 높은 성공과 연관되어 있는 반면, 테스트된 제시 세분성 변화는 작고 불확실하며 모델에 따라 달라지는 효과를 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기