arXiv논문2026. 06. 17. 11:10

LLM 게임 에이전트를 위한 환경 기반 자동 프롬프트 최적화

요약

LLM 게임 에이전트의 프롬프트를 환경 보상을 기반으로 자동 최적화하는 프레임워크를 제안합니다. 관찰-행동 파이프라인을 분해하고 진화 루프를 통해 모델 가중치 업데이트 없이도 성능을 크게 향상시킵니다.

핵심 포인트

환경 보상을 활용한 LLM 기반 자동 프롬프트 진화 루프 도입
행동 분석기와 변이 생성기를 통한 프롬프트 구성 요소 최적화
모델 미세 조정 없이도 BabyAI 작업에서 성능 대폭 개선
복잡한 다단계 협업 작업에서 성공률을 0%에서 72.5%로 향상

상호작용 환경에서의 LLM 에이전트들은 프롬프트에 매우 민감하지만, 프롬프트 엔지니어링 (Prompt Engineering)은 여전히 수동적이고 작업별로 특화된 프로세스로 남아 있습니다. 우리는 관찰-행동 파이프라인 (observation-to-action pipeline)을 목표 조건부 기술 에이전트 (goal-conditioned descriptor agent)와 행동 선택 에이전트 (action selection agent)로 분해하고, 환경 보상 (environment returns)에 의해 유도되는 LLM 기반 진화 루프 (evolutionary loop)를 통해 각 모듈의 프롬프트를 반복적으로 개선하는 LLM 에이전트용 자동 프롬프트 최적화 프레임워크를 소개합니다. 우리는 에피소드 결과를 특정 프롬프트 구성 요소의 탓으로 돌리는 행동 분석기 (behavior analyzer)와, 환경 롤아웃 (environment rollouts)을 통해 검증하기 전 프롬프트에 대한 타겟 수정안을 제안하는 변이 생성기 (mutator)를 제안합니다. 우리는 BALROG 벤치마크의 다섯 가지 BabyAI 작업 모두에서 평가를 수행하였으며, 일반 및 가이드 프롬프트 초기화 조건 모두에서 우리의 파이프라인을 BALROG의 RobustCoTAgent와 비교하였습니다. 최적화는 모델 가중치 (model weights)를 업데이트할 필요 없이 모든 작업과 조건에서 일관되게 성능을 향상시킵니다. RobustCoTAgent가 0%의 성공률을 기록한 다단계 협업 작업인 PutNext에서, 우리의 프레임워크는 최적화된 프롬프트를 사용하여 동일한 기반 LLM으로 최대 72.5%의 성공률에 도달했습니다. 이러한 결과는 자동 프롬프트 최적화와 결합된 멀티 에이전트 프레임워크가 미세 조정 (fine-tuning)이나 광범위한 인간의 감독 없이도 LLM을 향상시킨다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 게임 에이전트를 위한 환경 기반 자동 프롬프트 최적화

요약

핵심 포인트

댓글