LLM 에이전트의 절차적 메모리 관리: 제어, 적응 및 평가
요약
LLM 에이전트의 절차적 메모리 활용 능력을 평가하기 위한 새로운 벤치마크 AFTER를 소개합니다. 이 연구는 기술의 작업, 역할, 모델 간 전이 가능성을 분석하여 산업용 워크플로에서의 성능 향상 효과를 입증합니다.
핵심 포인트
- LLM 에이전트의 절차적 메모리 성능 평가를 위한 AFTER 벤치마크 제안
- 단 한 번의 개선만으로 에이전트 성능이 3.7~6.7포인트 향상됨을 확인
- 기술의 작업·역할·모델 간 전이 및 일반화 특성 분석
- 프로덕션 에이전트 플랫폼 구축을 위한 실질적 지침 제공
절차적 메모리 (Procedural memory)는 반복되는 업무 작업에서 LLM 에이전트를 개선하기 위해 점점 더 많이 사용되고 있지만, 재사용 가능한 기술을 생성하는 능력에 대해서는 여전히 이해가 부족한 상태입니다. 우리는 6개의 전문적인 역할과 22개의 절차적 기술 (procedural skills)에 걸쳐 382개의 현실적인 기업 업무를 다루는 벤치마크인 AFTER를 소개합니다. 이는 기술이 작업, 역할 및 모델 백본 (model backbones) 간에 어떻게 전이되는지 평가하기 위해 설계되었습니다. 이 벤치마크에는 로컬 개선, 작업 간 전이 (cross-task transfer), 역할 간 전이 (cross-role transfer) 및 모델 간 일반화 (cross-model generalization)를 위한 통제된 평가 설정이 포함되어 있습니다. 실험 결과, 절차적 메모리는 산업 워크플로 (industrial workflows)에서 일관된 이점을 제공하는 것으로 나타났습니다. 단 한 번의 개선 (refinement) 라운드만으로도 총 성능이 3.7~6.7포인트 향상되었으며, 다양한 멀티 모델 실행 트레이스 (multi-model execution traces)에서 진화된 기술은 73.1%의 모델 간 테스트 정확도를 달성하여 모든 단일 모델 트레이스 소스를 능가했습니다. 우리는 더 나아가 일부 기술은 작업과 모델 전반에 걸쳐 광범위하게 일반화되는 반면, 다른 기술은 역할별 워크플로에 특화되어 전이 시 효과를 잃는다는 것을 발견했습니다. 이러한 결과는 프로덕션 에이전트 플랫폼에서 절차적 메모리 시스템을 구축, 평가 및 배포하기 위한 실질적인 지침을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기