arXiv논문2026. 05. 21. 11:53

TextReg: 정규화된 텍스트 공간 최적화를 통한 프롬프트 분포 과적합 완화

요약

TextReg은 프롬프트 최적화 과정에서 발생하는 프롬프트 분포 과적합 문제를 해결하기 위해 제안된 새로운 정규화 프레임워크입니다. 기존 방식이 특정 샘플에 과도하게 맞춰져 일반화 성능이 떨어지는 문제를 '표현 비효율성'으로 정의하고, 이를 제어하기 위한 정규화된 텍스트 그래디언트 기법을 도입했습니다. 실험 결과, TextReg은 다양한 벤치마크에서 기존 방법론 대비 유의미한 정확도 향상과 뛰어난 분포 외(OOD) 일반화 성능을 입증했습니다.

핵심 포인트

프롬프트 최적화 시 발생하는 '프롬프트 분포 과적합' 현상을 정의하고 원인을 분석함
프롬프트 비효율성을 용량 비용(capacity cost)과 범위 협소성(scope narrowness)으로 분해하여 측정함
Dual-Evidence Gradient Purification, Semantic Edit Regularization 등을 결합한 TextReg 프레임워크 제안
TextGrad 및 REVOLVE 대비 최대 11.8%~16.5%의 정확도 향상 및 OOD 일반화 성능 개선 달성

대규모 언어 모델 (LLMs)은 작업 목표와 행동 제약 조건을 지정하기 위해 사용되는 프롬프트 (prompts)에 매우 민감합니다. 최근의 많은 프롬프트 최적화 방법들은 LLM이 생성한 피드백을 사용하여 프롬프트를 반복적으로 재작성하지만, 그 결과로 생성된 프롬프트는 종종 더 길어지고, 특정 샘플에 국한된 좁은 규칙들이 축적되며, 훈련 분포 (training distribution)를 벗어난 데이터에 대해 일반화 성능이 떨어지는 경우가 많습니다. 우리는 이러한 실패 모드를 프롬프트 분포 과적합 (prompt distributional overfitting)으로 정의하며, 이것이 이산적 텍스트 공간 최적화 (discrete text-space optimization) 과정에서 표현 제어 (representation control)가 부족하기 때문에 발생한다고 주장합니다. 우리는 이를 표현 비효율성 (representational inefficiency)이라는 개념을 통해 공식화합니다. 이는 프롬프트 비효율성을 용량 비용 (capacity cost)과 범위 협소성 (scope narrowness)으로 분해하는 이중 요소 측정법으로, 분포적 프롬프트 과적합이 최적화 과정 중 이 두 요소의 결합된 성장 때문임을 밝힙니다. 우리는 Dual-Evidence Gradient Purification, Semantic Edit Regularization, 그리고 Regularization-Guided Prompt Update를 결합하여, 정규화된 텍스트 그래디언트 (regularized textual gradients)를 통해 소프트 패널티 (soft-penalty) 목적 함수를 구현하는 정규화 프레임워크인 TextReg을 제안합니다. 여러 추론 벤치마크에 걸쳐 TextReg은 분포 외 (OOD) 일반화 성능을 실질적으로 향상시켰으며, TextGrad 대비 최대 +11.8%, REVOLVE 대비 최대 +16.5%의 정확도 향상을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TextReg: 정규화된 텍스트 공간 최적화를 통한 프롬프트 분포 과적합 완화

요약

핵심 포인트

댓글