arXiv논문2026. 05. 28. 13:21

기능적 엔트로피: 불확실성 정량화(Uncertainty Quantification)를 통한 LLM 생성 코드의 기능적 정확성 예측

요약

LLM이 생성한 코드의 기능적 정확성을 예측하기 위해 불확실성 정량화(UQ) 기술을 적용한 연구입니다. 기존 NLI 기반 방식의 한계를 극복하기 위해 코드 특화 방법론인 '기능적 엔트로피'를 제안하며, 다양한 벤치마크에서 우수한 성능을 입증했습니다.

핵심 포인트

LLM 코드 생성 시 발생하는 기능적 오류 탐지 연구
기존 NLI 기반 샘플링 방식의 한계 및 붕괴 현상 발견
코드 특화 '기능적 엔트로피' 방법론 제안
15개 모델-벤치마크 조합 중 11개에서 최고 AUROC 달성

대규모 언어 모델(Large language models, LLM)은 코드 생성 분야에서 인상적인 능력을 보여주었으나, 종종 기능적으로 잘못된 코드를 생성합니다. 불확실성 정량화(Uncertainty quantification, UQ) 방법론은 자연어 생성에서 환각(hallucinations)을 탐지하는 유망한 접근 방식으로 등장했지만, 코드 생성 작업에서의 효과는 아직 충분히 탐구되지 않았습니다. 우리는 세 가지 프로그래밍 언어, 다섯 가지 LLM, 그리고 1,700개 이상의 문제를 통해 UQ 기술이 코드 생성으로 어떻게 전이되는지 체계적으로 평가합니다. 연구 결과, 일부 토큰 확률 기반(token-probability-based) 방법들은 수정 없이도 효과적으로 일반화되는 반면, 자연어 추론(Natural Language Inference, NLI)에 의존하는 샘플링 기반(sampling-based) 방법들은 NLI 모델이 기능적으로 다른 코드를 구분하지 못하여 대부분의 응답이 단일한 의미론적 클러스터(semantic cluster)로 붕괴되기 때문에 실패한다는 것을 발견했습니다. 이를 해결하기 위해, 우리는 NLI 기반의 의미론적 동등성(semantic equivalence)을 LLM 기반의 기능적 동등성(functional equivalence) 평가로 대체하는 코드 특화 방법론 군인 기능적 동등성 방법론(functional equivalence methods)을 도입합니다. 여기에는 의미론적 엔트로피(semantic entropy)의 코드 특화 아날로그인 기능적 엔트로피(functional entropy)가 포함됩니다. 기능적 동등성 방법론은 15개의 모델-벤치마크 조합 중 11개에서 최고의 AUROC를 달성하였으며, 대부분의 설정에서 최적의 보정(calibration) 성능을 보여주며 NLI 기반의 대응 방법 및 평가된 다른 모든 방법론을 일관되게 능가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

기능적 엔트로피: 불확실성 정량화(Uncertainty Quantification)를 통한 LLM 생성 코드의 기능적 정확성 예측

요약

핵심 포인트

댓글