arXiv논문2026. 06. 09. 11:50

코드는 텍스트 그 이상이다: 코드 생성(Code Generation)을 위한 불확실성 추정(Uncertainty Estimation)

요약

LLM의 코드 생성 시 발생하는 신뢰성 문제를 해결하기 위해 코드 특화 불확실성 추정(UE) 방법론을 제안합니다. 기존 자연어 기반 방식과 달리 토큰 취약성, 의도-코드 간극, 실행 가능성을 고려한 세 가지 축(어휘적, 알고리즘적, 기능적)을 통해 성능을 크게 향상시켰습니다.

핵심 포인트

코드 특유의 특성(토큰 취약성, 의도-코드 간극, 실행 가능성) 반영
어휘적, 알고리즘적, 기능적 세 가지 불확실성 축 제안
기존 NL 기반 베이스라인 대비 AUROC 8.1%p 향상
Qwen3-14B 모델에서 저비용 고효율의 단일 패스 성능 입증

대규모 언어 모델(LLMs)이 코드 생성기(code generators)로 점점 더 많이 배치됨에 따라, 조용히 잘못된 프로그램을 생성하는 것은 실제 안전 및 신뢰성 위험을 초래합니다. 신뢰할 수 있는 불확실성 추정(Uncertainty Estimation, UE)은 선택적 예측(selective prediction), 인간 참여형 검토(human-in-the-loop review), 그리고 다운스트림 에이전트 결정(downstream agentic decisions)을 위해 필수적입니다. 그러나 기존의 대부분의 코드 UE 방법론은 자연어(Natural Language, NL) 생성 방식에서 상속되었으며, 코드를 독특하게 만드는 특성들을 무시하고 있습니다. 우리는 코드가 세 가지 측면에서 NL과 다르다고 주장합니다: 단 하나의 잘못된 토큰이 전체 프로그램을 망가뜨릴 수 있다는 점(토큰 취약성, token fragility), 알고리즘적 의도(algorithmic intent)와 구체적인 구현(concrete implementation)이 독립적으로 불일치할 수 있다는 점(의도-코드 간극, intent-code gap), 그리고 프로그램은 실행 가능하다는 점(실행 가능성, executability)입니다. 우리는 이러한 특성들을 세 가지 직교하는 불확실성 축으로 구체화합니다: 어휘적(lexical, Top-K 토큰 엔트로피), 알고리즘적(algorithmic, 의사코드 일관성), 그리고 기능적(functional, 동작 일관성) 축입니다. 5개의 코드 LLM을 대상으로 실험한 결과, 우리의 3축 앙상블(three-axis ensemble)은 가장 강력한 NL 기반 베이스라인의 평균 AUROC인 0.696을 0.776(+8.1 포인트)으로 향상시켰습니다. 특히, Qwen3-14B 모델에서 우리의 단일 패스(single-pass) Top-K 토큰 엔트로피는 가장 강력한 멀티 패스(multi-pass) 베이스라인과 대등한 성능을 보이면서도 비용은 3배 이상 저렴했습니다. 모델 전반에 걸쳐 이는 경쟁력 있는 저비용 신호로 유지되었습니다. 이러한 결과는 코드 UE가 NL 방식을 그대로 가져오는 것이 아니라, 코드 특화된 설계(code-specific design)를 받을 가치가 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

코드는 텍스트 그 이상이다: 코드 생성(Code Generation)을 위한 불확실성 추정(Uncertainty Estimation)

요약

핵심 포인트

댓글