명세 기반 개발(Spec-Driven Development)에서의 인용 규율: LLM 생성 코드의 출력 결정론 및 자동 환각 탐지에 관한 교차

명세 기반 개발 (Spec-Driven Development, SDD) 프레임워크는 공식적인 명세(formal specifications)를 통해 대규모 언어 모델 (Large Language Model, LLM) 기반의 코드 생성을 안내하지만, 요구사항과 생성된 코드 사이의 추적성(traceability)을 강제하는 방식에는 근본적인 차이가 있습니다. 본 논문은 세 가지 SDD 프레임워크를 비교하는 두 가지 통제된 실증 연구를 제시합니다: 계층적 REQ-XXX.Y.Z 식별자를 사용하여 라인별 필수 요구사항 인용을 강제하는 $traceSDD$, 사용자 스토리와 수락 기준(acceptance criteria)을 통해 산출물 수준의 추적성을 사용하는 $Spec Kit$, 그리고 사후 외부 추적 맵(post-hoc external trace maps)에 의존하는 $OpenSpec$입니다. 우리는 두 가지 최첨단 LLM인 Claude Sonnet 4.6 (N=20, 4개 조건, 240개 구현) 및 GLM-5-turbo (N=50, 4개 조건, 600개 구현)를 대상으로 두 가지 주요 결과 지표를 측정했습니다: 출력 결정론 (output determinism, 독립적인 LLM 세션 간의 어휘적 유사성) 및 자동 환각 탐지율 (automated hallucination detection rate, TDR). 사전 등록된 우리의 분석 결과는 모델을 가리지 않고 일관되게 재현되는 트레이드오프(trade-off)를 보여줍니다: 인용되지 않은 조건은 인용된 조건보다 유의미하게 높은 결정론을 생성하며 (Claude: $d=-0.76$, $p=0.003$; GLM: $d=-0.72$, $p<0.001$), 오직 인용된 조건만이 자동 환각 탐지를 가능하게 합니다 (TDR: Claude 86.4%, GLM 88.0%, 다른 모든 대안은 0%, 두 연구 모두에서 FPR=0%). traceSDD (인용됨)는 결정론 측면에서 $Spec Kit$를 유의미하게 능가하지만 (Claude: $d=0.47$, $p=0.049$; GLM: $d=0.42$, $p=0.003$), OpenSpec은 능가하지 못했습니다 (Claude: $d=0.18$, $p=0.44$; GLM: $d=0.14$, $p=0.32$). 이러한 발견은 인용 주석(citation annotations)이 결정론을 희생하는 대신 검증 가능성(verifiability)을 얻는다는 점과, 이러한 트레이드오프가 모델 아키텍처 전반에 걸쳐 일반화된다는 점을 입증합니다.

Insights

명세 기반 개발(Spec-Driven Development)에서의 인용 규율: LLM 생성 코드의 출력 결정론 및 자동 환각 탐지에 관한 교차

요약

핵심 포인트

댓글

📋 Claude Sonnet 5 프롬프트 가이드

digiKam이 당신을 이해하도록 가르치기: 로컬 LLM을 활용한 자연어 검색

조직 범죄 집단이 AI 데이터 센터 공급망을 겨냥함에 따라 130만 달러 상당의 도난당한 구리 및 장비 회수

Nike, 관세 환급 효과로 4분기 흑자 전환했으나 중국 시장 침체 심화

digiKam이 당신을 이해하도록 가르치기: 로컬 LLM을 활용한 자연어 검색

조직 범죄 집단이 AI 데이터 센터 공급망을 겨냥함에 따라 130만 달러 상당의 도난당한 구리 및 장비 회수

Nike, 관세 환급 효과로 4분기 흑자 전환했으나 중국 시장 침체 심화