명세 기반 개발(Spec-Driven Development)에서의 인용 규율: LLM 생성 코드의 출력 결정론 및 자동 환각 탐지에 관한 교차
요약
명세 기반 개발(SDD) 프레임워크에서 LLM 생성 코드의 추적성과 환각 탐지 성능을 비교 연구한 논문입니다. 인용 주석을 강제하는 방식이 코드의 결정론을 낮추는 대신, 환각 탐지율을 획기적으로 높인다는 트레이드오프를 입증했습니다.
핵심 포인트
- SDD 프레임워크별(traceSDD, Spec Kit, OpenSpec) 코드 추적성 비교
- 인용 주석 사용 시 자동 환각 탐지율(TDR)이 비약적으로 상승
- 인용 강제는 출력 결정론을 희생하는 대신 검증 가능성을 확보함
- Claude와 GLM 모델 모두에서 일관된 트레이드오프 결과 확인
명세 기반 개발 (Spec-Driven Development, SDD) 프레임워크는 공식적인 명세(formal specifications)를 통해 대규모 언어 모델 (Large Language Model, LLM) 기반의 코드 생성을 안내하지만, 요구사항과 생성된 코드 사이의 추적성(traceability)을 강제하는 방식에는 근본적인 차이가 있습니다. 본 논문은 세 가지 SDD 프레임워크를 비교하는 두 가지 통제된 실증 연구를 제시합니다: 계층적 REQ-XXX.Y.Z 식별자를 사용하여 라인별 필수 요구사항 인용을 강제하는 $traceSDD$, 사용자 스토리와 수락 기준(acceptance criteria)을 통해 산출물 수준의 추적성을 사용하는 $Spec Kit$, 그리고 사후 외부 추적 맵(post-hoc external trace maps)에 의존하는 $OpenSpec$입니다. 우리는 두 가지 최첨단 LLM인 Claude Sonnet 4.6 (N=20, 4개 조건, 240개 구현) 및 GLM-5-turbo (N=50, 4개 조건, 600개 구현)를 대상으로 두 가지 주요 결과 지표를 측정했습니다: 출력 결정론 (output determinism, 독립적인 LLM 세션 간의 어휘적 유사성) 및 자동 환각 탐지율 (automated hallucination detection rate, TDR). 사전 등록된 우리의 분석 결과는 모델을 가리지 않고 일관되게 재현되는 트레이드오프(trade-off)를 보여줍니다: 인용되지 않은 조건은 인용된 조건보다 유의미하게 높은 결정론을 생성하며 (Claude: $d=-0.76$, $p=0.003$; GLM: $d=-0.72$, $p<0.001$), 오직 인용된 조건만이 자동 환각 탐지를 가능하게 합니다 (TDR: Claude 86.4%, GLM 88.0%, 다른 모든 대안은 0%, 두 연구 모두에서 FPR=0%). traceSDD (인용됨)는 결정론 측면에서 $Spec Kit$를 유의미하게 능가하지만 (Claude: $d=0.47$, $p=0.049$; GLM: $d=0.42$, $p=0.003$), OpenSpec은 능가하지 못했습니다 (Claude: $d=0.18$, $p=0.44$; GLM: $d=0.14$, $p=0.32$). 이러한 발견은 인용 주석(citation annotations)이 결정론을 희생하는 대신 검증 가능성(verifiability)을 얻는다는 점과, 이러한 트레이드오프가 모델 아키텍처 전반에 걸쳐 일반화된다는 점을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기