arXiv논문2026. 06. 19. 10:37

FAPO: 다단계 LLM 파이프라인의 완전 자율 프롬프트 최적화

요약

FAPO는 다단계 LLM 파이프라인의 병목 현상을 진단하고 프롬프트와 체인 구조를 자율적으로 최적화하는 프레임워크입니다. 벤치마크 테스트 결과, 기존 방식보다 뛰어난 성능 향상을 보이며 범용 및 보안 작업 모두에서 탁월한 효과를 입증했습니다.

핵심 포인트

프롬프트 수정뿐만 아니라 구조적 병목 해결을 위한 체인 변경 지원
점수 함수 기반의 반복적인 검증 및 변형 제안 프로세스
다양한 벤치마크에서 기존 GEPA 베이스라인을 압도하는 성능 기록
보안 관련 작업(CVE-to-CWE)에서도 유의미한 정확도 향상 달성

다단계 LLM (Large Language Model) 파이프라인은 검색(retrieval), 추론(reasoning), 포맷팅(formatting) 단계 간의 상호작용으로 인해 실패할 수 있으며, 따라서 프롬프트만 최적화하는 방식은 체인 내의 병목 현상을 놓칠 수 있습니다. 우리는 Claude Code가 표준화된 코드베이스 내에서 LLM 파이프라인을 최적화할 수 있도록 하는 프레임워크인 FAPO (Fully Autonomous Prompt Optimization)를 제시합니다. FAPO는 점수 함수(score function)에 대해 최적화하기 위해 파이프라인을 평가하고, 중간 단계를 검사하며, 실패를 진단하고, 범위가 지정된 변경 사항을 제안하며, 변형(variants)을 반복적으로 검증합니다. FAPO는 먼저 프롬프트 수정을 시도하며, 프롬프트 최적화만으로는 불충분하다고 판단될 때, 기여도 분석(attribution)을 통해 구조적 병목 현상이 식별되면 허용된 범위 내에서 체인 구조를 변경합니다. 6개의 벤치마크와 3개의 작업 모델에 대해 테스트한 결과, FAPO는 18개의 모델-벤치마크 비교 중 15개에서 베이스라인인 GEPA를 능가했습니다. 11개의 모델-벤치마크 비교에서 FAPO는 겹치지 않는 평균 $\pm$ 시행-표준-편차(trial-standard-deviation) 범위를 기록하며 승리했으며, FAPO-GEPA의 평균 이득은 +14.1 pp입니다. 프롬프트 우선 탐색(prompt-first search)이 구조적 변경으로 확대된 6개의 HoVer 및 IFBench 비교에서는 FAPO가 평균 +33.8 pp의 이득과 함께 6개 모두에서 승리했습니다. FAPO는 보안 작업의 성능도 향상시킵니다. 보안 CVE-to-CWE 작업인 CTIBench-RCM에서 프롬프트 전용 FAPO는 GPT-5에서 테스트 정확도를 +4.0 pp, Foundation-Sec-8B-Instruct에서 +7.1 pp, Foundation-Sec-8B-Reasoning에서 +2.0 pp 향상시켰습니다. 이러한 결과는 FAPO를 범용 및 보안 중심 작업 모두를 위한 최첨단(state-of-the-art) 파이프라인 최적화 기술로 자리매김하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FAPO: 다단계 LLM 파이프라인의 완전 자율 프롬프트 최적화

요약

핵심 포인트

댓글