BT-APE: 요구사항 분류를 위한 계산 효율적인 백트래킹 기반 자동 프롬프트 엔지니어링 접근 방식

대규모 언어 모델 (LLMs)은 요구사항 공학 (RE) 작업에 점점 더 많이 적용되고 있지만, 이를 가이드하는 프롬프트는 일반적으로 시행착오를 통해 수동으로 설계되어 일관성이 없고 최적화되지 않은 결과를 초래합니다. 자동 프롬프트 구축은 RE 분야에서 여전히 미개척 상태로 남아 있어 그 효과가 불분명합니다. 이를 해결하기 위해, 우리는 경량화된 자동 프롬프트 엔지니어링 (Automatic Prompt Engineering, APE) 접근 방식인 BT-APE (Backtracking APE)를 제안하고 이를 요구사항 분류 (requirements classification)에 적용합니다. 우리는 프롬프트 설계를 최적화 문제로 정의하며, LLM이 생성한 후보군, 백트래킹 탐색 (backtracking search), 그리고 동적 예시 선택 (dynamic example selection)을 통해 프롬프트를 반복적으로 개선합니다. 5개의 지시어 튜닝된 (instruction-tuned) LLM을 사용하여 3개의 벤치마크 데이터셋에서 BT-APE를 평가하였으며, 이를 4가지 고전적인 프롬프팅 베이스라인 (zero-shot, few-shot, chain-of-thought, CoT+few-shot) 및 최첨단이지만 자원 집약적인 APE 베이스라인 (PE2)과 비교했습니다. BT-APE와 PE2는 거의 동일한 정확도를 달성하였으며, 두 방식 모두 큰 효과 크기 (effect sizes)와 함께 고전적인 베이스라인들을 실질적으로 능가했습니다. 그러나 BT-APE는 훨씬 더 가벼운 계산 발자국 (computational footprint)을 가지며, 동일한 정확도에서 입력 토큰을 약 72% 적게 사용하고 실제 실행 시간 (wall-clock time)을 66% 적게 소모하여 자원이 제한된 배포 환경에 더 적합합니다. 우리의 기여는 세 가지입니다: (i) 오픈 인터랙티브 도구 및 재현 패키지를 포함한 경량 APE 프레임워크; (ii) 요구사항 분류를 위한 고전적 프롬프팅과 APE의 첫 번째 체계적인 비교; (iii) 클래스 정의와 프롬프트 진화가 성능에 미치는 영향에 대한 통찰력.

Insights

BT-APE: 요구사항 분류를 위한 계산 효율적인 백트래킹 기반 자동 프롬프트 엔지니어링 접근 방식

요약

핵심 포인트

댓글

긴 대화에서 ChatGPT와 Claude가 문맥을 잊어버리는 것을 방지하는 방법

강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈 출시

Rust와 C로 작성되어 JIT 컴파일 기술을 통해 macOS에서 Linux 컨테이너를 직접 실행하는 오픈소스 프로젝트

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임

강화학습 (RL) 기반 자가 개선 오픈소스 프로그래밍 에이전트 모델 시리즈 출시

Rust와 C로 작성되어 JIT 컴파일 기술을 통해 macOS에서 Linux 컨테이너를 직접 실행하는 오픈소스 프로젝트

SAIR 팟캐스트: 타오쩌쉬안, AI 시대의 '증명 소화불량'과 경쟁 새 패러다임