본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 12:07

비즈니스 중심 LLM 시스템을 위한 수락 테스트 주도 평가 프로토콜

요약

LLM 애플리케이션의 신뢰성을 확보하기 위해 수락 테스트 주도 개발(ATDD)을 적용한 새로운 평가 프로토콜을 제안합니다. 비즈니스 요구사항을 행동 계약과 릴리스 게이트로 변환하여, 모델이나 프롬프트 변경 시 안정적인 시스템 운영을 보장합니다.

핵심 포인트

  • ATDD 기반의 red-train-green 라이프사이클 제안
  • 비즈니스 목표를 실행 가능한 행동 계약으로 변환
  • 거버넌스 지향적인 메트릭 스택 및 참조 아키텍처 제공
  • 사후 벤치마킹의 한계를 극복하는 검증 프로토콜

대규모 언어 모델 (LLM) 애플리케이션은 확률론적 생성 구성 요소에 의존하면서도, 결정론적인 기관 요구 사항을 충족해야 한다는 기대가 점점 커지고 있습니다. 이러한 불일치로 인해 안전하고, 신뢰할 수 있으며, 감사 가능하고, 경제적으로 유용한 시스템을 구축해야 하는 경우 일반적인 사후 벤치마킹 (post-hoc benchmarking)만으로는 불충분합니다. 본 논문은 수락 테스트 주도 개발 (Acceptance-Test-Driven Development, ATDD), 안전 공학 (Safety Engineering), 그리고 비즈니스 중심 검증 (Business-Centric Validation)에 기반한 운영 LLM 시스템을 위한 평가 프로토콜 확장을 제안합니다. 이 확장은 프롬프트 (Prompt), 모델 (Model), 검색 (Retrieval) 또는 에이전트 (Agent) 변경 사항이 수용되기 전에 이해관계자의 목표를 실행 가능한 행동 계약 (Behavioral Contracts), 릴리스 게이트 (Release Gates), 모니터링 신호 (Monitoring Signals) 및 증거 아티팩트 (Evidence Artifacts)로 변환합니다. 이는 테스트 주도 개발 (Test-Driven Development, TDD)의 red-green-refactor 규율을 red-train-green 라이프사이클로 변형합니다. 즉, 먼저 원하는 동작에 대해 실패하는 수락 테스트를 정의한 다음, 프롬프트 변경, 검색 설계, 미세 조정 (Fine-tuning), 가드레일 (Guardrails) 또는 데이터 증강 (Data Augmentation)을 통해 LLM 시스템을 개선하고, 마지막으로 다차원적인 게이트가 충족되었을 때만 릴리스합니다. 본 연구의 기여는 거버넌스 지향적인 메트릭 스택 (Metric Stack), 참조 아키텍처 (Reference Architecture), 그리고 수락 테스트 주도 LLM 개발을 프롬프트 우선 (Prompt-first) 및 벤치마크 사후 (Benchmark-after) 워크플로우와 비교하기 위한 실증적 프로토콜을 제공하는 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0