arXiv논문2026. 06. 26. 12:15

언제 확률이 높은 답변이 정답일까? LLM의 시퀀스 확률(Sequence Probability)과 정확도(Correctness)에 대하여

요약

LLM의 시퀀스 확률과 답변의 정확도 사이의 상관관계를 분석한 연구입니다. 시퀀스 확률이 특정 데이터셋 내에서는 정확도를 예측할 수 있으나, 디코딩 방법이나 하이퍼파라미터 변경을 통한 확률 상승이 반드시 정확도 향상으로 이어지지는 않음을 밝힙니다.

핵심 포인트

시퀀스 확률과 정확도 간의 관계를 네 가지 수준에서 정량화함
데이터셋 내 프롬프트-답변 쌍에서는 높은 확률이 정확도를 예측하는 지표가 됨
디코딩 방법이나 하이퍼파라미터 변경이 정확도를 안정적으로 높이지는 못함
동일 프롬프트에 대한 응답 정확도 예측 시 시퀀스 확률은 좋은 지표가 아님
디코딩 및 자기 개선(self-improvement)을 위한 실질적 지침 제공

대규모 언어 모델(Large Language Models, LLMs)을 위한 많은 디코딩(decoding) 방법들은 토큰 수준의 국소적(locally) 방식이든 시퀀스 수준의 전역적(globally) 방식이든, 모델 하에서 더 가능성이 높은 출력값으로 확률 질량(probability mass)을 이동시키는 것으로 이해될 수 있습니다. 따라서 이러한 방법들의 성공 여부는 근본적인 질문에 달려 있습니다: 즉, 시퀀스 확률(sequence probability), 즉 프롬프트(prompt)가 주어졌을 때 이어지는 내용의 조건부 확률(conditional probability)이 실제로 정확도(correctness)와 일치하는 시점은 언제인가 하는 점입니다. 본 논문에서는 디코딩 방법, 모델, 그리고 벤치마크(benchmarks) 전반에 걸쳐 네 가지 수준에서 이 관계를 정량화하고자 합니다: 디코딩 방법 간, 한 방법 내의 하이퍼파라미터(hyperparameters) 간, 데이터셋 내의 프롬프트-답변(prompt-answer) 쌍 간, 그리고 동일한 프롬프트에 대한 반복된 응답 간의 관계입니다. 연구 결과, 고정된 데이터셋 내의 프롬프트-답변 쌍 사이에서는 높은 시퀀스 확률이 정확도를 예측하는 지표가 되는 경우가 많음을 발견했습니다. 그러나 이러한 관계가 디코딩 결정(decoding decisions)으로 일반적으로 전이되지는 않습니다. 즉, 하이퍼파라미터나 방법을 변경하여 시퀀스 확률을 높이는 것이 정확도를 안정적으로 향상시키지는 못합니다. 나아가, 시퀀스 확률은 동일한 프롬프트에 대한 응답의 정확도를 나타내는 좋은 지표가 아닙니다. 이러한 발견은 디코딩을 통해 언제 정확도를 향상시킬 수 있고 언제 기대할 수 없는지를 명확히 하며, 디코딩(decoding), 자기 일관성(self-consistency), 그리고 검증기 없는 자기 개선(verifier-free self-improvement)을 위한 실질적인 지침을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언제 확률이 높은 답변이 정답일까? LLM의 시퀀스 확률(Sequence Probability)과 정확도(Correctness)에 대하여

요약

핵심 포인트

댓글