컴파일이 아닌 교정: 언어 모델이 작성한 잘못 지정된 확률적 프로그램의 탐지 및 수정

언어 모델(Language models)은 NumPyro, Stan 또는 Pyro와 같은 확률적 프로그램(probabilistic programs)을 점점 더 많이 작성하고 있지만, 컴파일되고 실행되며 모든 단위 테스트(unit test)를 통과하는 프로그램이라 할지라도 여전히 extit{통계적으로} 틀릴 수 있습니다. 예를 들어, 두꺼운 꼬리(heavy-tailed) 데이터를 위한 가우시안 우도(Gaussian likelihood), 과분산된(over-dispersed) 빈도에 대한 포아송(Poisson) 분포, 잘못된 사전 분포 지지 집합(invalid prior support), 또는 병리적인 매개변수화(pathological parameterization) 등이 이에 해당합니다. 따라서 올바른 검증기(verifier)는 테스트 스위트(test suite)가 아니라 베이지안 워크플로우(Bayesian workflow) 그 자체입니다: 사후 예측 점검(posterior predictive checks), 시뮬레이션 기반 교정(simulation-based calibration), 샘플러 진단($ ext{\hat{R}}$, 발산(divergences), ESS), 그리고 홀드아웃 예측 밀도(held-out predictive density)가 그것입니다. 우리는 이 교정 오라클(calibration oracle)을 세 가지 축에서 연구합니다. extbf{탐지(Detection):} 10개의 모델 제품군(200개 사례)에 걸친 14가지 잘못 지정(misspecification) 유형의 벤치마크에서, 이 오라클은 AUC 0.97로 버그를 표시합니다(올바른 참조 프로그램을 제공받았을 때의 2% FPR에서 88%로, 이는 상한선임). 또한 올바른 프로그램을 사용하지 않는 완전한 extit{참조 없는(reference-free)} 버전은 6278%(상위 수치는 소규모 자동 모델 탐색 결과)에 도달하며, 이는 단위 테스트 오라클의 0%와 대조적입니다. extbf{수정(Repair):} 15개 모델에 걸쳐 LLM 수정 루프(repair loop)의 피드백으로 사용했을 때, 교정(calibration)은 단위 테스트 피드백보다 성능이 현저히 뛰어납니다. 단위 테스트 피드백은 extit{피드백이 전혀 없는 것보다 훨씬 더 나쁜 성능을 보이는데}, 이는 테스트 통과가 수정을 억제하는 잘못된 확신(false confidence)을 유도하기 때문입니다. 또한 교정은 강력하지만 불충분한 모델(GPT-5.1 33$ o$92%, Claude 75$ o$100%; McNemar 검정, $n{=}228$)에서 피드백이 없는 경우보다 성능을 향상시킵니다. extbf{실제(Reality):} LLM이 중립적인 브리프(briefs)를 바탕으로 처음부터 작성한 프로그램의 경우, 실행 가능한 프로그램의 1547%가 통계적으로 잘못 지정되어 있습니다(단위 테스트는 하나도 잡아내지 못함). 또한 교정 가이드 수정(calibration-guided repair)은 LLM-as-judge 리뷰, 베이지안 워크플로우 체크리스트, 그리고 데이터 요약 셀프 디버그(data-summary self-debug)보다 성능이 현저히 뛰어납니다. 이 세 가지 모두에서 얻은 교훈은 동일합니다: 확률적 프로그램에 있어 정확성은 컴파일이 아니라 교정(calibration)입니다.

Insights

컴파일이 아닌 교정: 언어 모델이 작성한 잘못 지정된 확률적 프로그램의 탐지 및 수정

요약

핵심 포인트

댓글

이번 분기에 AI가 현실적으로 대신 처리해 줄 수 있는 반복적인 행정 업무는 무엇인가?

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유