arXiv논문2026. 06. 10. 11:36

EEVEE: 실세계 자가 개선 에이전트를 위한 테스트 시간 프롬프트 학습을 향하여

요약

EEVEE는 실세계의 이질적인 작업 스트림을 처리하기 위해 제안된 최초의 멀티 데이터셋 테스트 시간 프롬프트 학습 프레임워크입니다. 라우터와 프롬프트의 공동 진화 전략을 통해 데이터셋 간 간섭을 완화하고 다양한 도메인에서의 강건성을 확보합니다.

핵심 포인트

멀티 데이터셋 환경을 위한 테스트 시간 프롬프트 학습 프레임워크 제안
라우터-프롬프트 공동 진화 전략으로 데이터셋 간 간섭 완화
Qwen 및 DeepSeek 모델에서 유의미한 벤치마크 성능 향상 입증
기존 SOTA 방법론인 GEPA 및 ACE 대비 압도적인 성능 우위

본 논문에서 우리는 LLM 에이전트를 위한 최초의 멀티 데이터셋 테스트 시간 프롬프트 학습 (test-time prompt learning) 프레임워크인 EEVEE를 제안하며, 이를 통해 실세계 작업 스트림 (task streams) 하에서의 테스트 시간 프롬프트 학습을 가능하게 합니다. 기존 방법들은 주로 단일 데이터셋 설정에 맞춰 설계되어 있는 반면, 실세계 애플리케이션은 모델이 여러 데이터셋, 도메인 및 작업 분포에서 추출된 이질적인 입력 스트림 (heterogeneous input streams)을 처리할 것을 요구하며, 이는 실제 적용 가능성을 제한합니다. 데이터셋 간의 간섭 (cross-dataset interference)을 완화하기 위해, EEVEE는 들어오는 입력을 작업 클러스터 (task clusters)로 분할하고 이를 적절한 프롬프트 구성에 할당하는 라우터 (router)를 도입합니다. 이 설계는 라우터와 프롬프트의 상호 의존성을 해결하기 위해 라우터 학습과 프롬프트 학습 단계를 교차하여 사용하는 라우터-프롬프트 공동 진화 (router-prompt co-evolution) 전략을 통해 최적화됩니다. 여러 데이터셋에 걸친 실험을 통해, 이 프레임워크가 단일 벤치마크 학습 능력과 효율성을 유지하면서도 이질적인 데이터 스트림 하에서의 강건성 (robustness)을 향상시킨다는 것을 입증했습니다. 구체적으로, EEVEE는 Qwen3-4B-Instruct 및 DeepSeek-V3.2 대비 평균 멀티 벤치마크 점수를 각각 10.38점과 24.32점 향상시켰으며, SOTA 방법론인 GEPA 및 ACE를 최대 37.2% 및 48.2%까지 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EEVEE: 실세계 자가 개선 에이전트를 위한 테스트 시간 프롬프트 학습을 향하여

요약

핵심 포인트

댓글