LLM 게임 에이전트를 위한 환경 기반 자동 프롬프트 최적화
요약
LLM 게임 에이전트의 프롬프트를 환경 보상을 기반으로 자동 최적화하는 프레임워크를 제안합니다. 관찰-행동 파이프라인을 분해하고 진화 루프를 통해 모델 가중치 업데이트 없이도 성능을 크게 향상시킵니다.
핵심 포인트
- 환경 보상을 활용한 LLM 기반 자동 프롬프트 진화 루프 도입
- 행동 분석기와 변이 생성기를 통한 프롬프트 구성 요소 최적화
- 모델 미세 조정 없이도 BabyAI 작업에서 성능 대폭 개선
- 복잡한 다단계 협업 작업에서 성공률을 0%에서 72.5%로 향상
상호작용 환경에서의 LLM 에이전트들은 프롬프트에 매우 민감하지만, 프롬프트 엔지니어링 (Prompt Engineering)은 여전히 수동적이고 작업별로 특화된 프로세스로 남아 있습니다. 우리는 관찰-행동 파이프라인 (observation-to-action pipeline)을 목표 조건부 기술 에이전트 (goal-conditioned descriptor agent)와 행동 선택 에이전트 (action selection agent)로 분해하고, 환경 보상 (environment returns)에 의해 유도되는 LLM 기반 진화 루프 (evolutionary loop)를 통해 각 모듈의 프롬프트를 반복적으로 개선하는 LLM 에이전트용 자동 프롬프트 최적화 프레임워크를 소개합니다. 우리는 에피소드 결과를 특정 프롬프트 구성 요소의 탓으로 돌리는 행동 분석기 (behavior analyzer)와, 환경 롤아웃 (environment rollouts)을 통해 검증하기 전 프롬프트에 대한 타겟 수정안을 제안하는 변이 생성기 (mutator)를 제안합니다. 우리는 BALROG 벤치마크의 다섯 가지 BabyAI 작업 모두에서 평가를 수행하였으며, 일반 및 가이드 프롬프트 초기화 조건 모두에서 우리의 파이프라인을 BALROG의 RobustCoTAgent와 비교하였습니다. 최적화는 모델 가중치 (model weights)를 업데이트할 필요 없이 모든 작업과 조건에서 일관되게 성능을 향상시킵니다. RobustCoTAgent가 0%의 성공률을 기록한 다단계 협업 작업인 PutNext에서, 우리의 프레임워크는 최적화된 프롬프트를 사용하여 동일한 기반 LLM으로 최대 72.5%의 성공률에 도달했습니다. 이러한 결과는 자동 프롬프트 최적화와 결합된 멀티 에이전트 프레임워크가 미세 조정 (fine-tuning)이나 광범위한 인간의 감독 없이도 LLM을 향상시킨다는 것을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기