미지정(Underspecification)이 비일관성(Incoherence)을 의미하지는 않는다: 코딩 모델에서의 의미론적
요약
LLM이 모호한 프롬프트를 받았을 때 비일관적인 결과 대신, 하나의 잘못된 해석으로 고착되는 '해로운 의미론적 붕괴' 현상을 분석한 연구입니다. 이 현상은 MBPP, HumanEval 등 주요 벤치마크의 신뢰성을 저해할 수 있음을 밝혀냈습니다.
핵심 포인트
- 프롬프트의 미지정이 반드시 모델의 비일관성으로 이어지지는 않음
- 모델이 하나의 잘못된 해석으로 수렴하는 '해로운 의미론적 붕괴' 발견
- 주요 코딩 벤치마크(MBPP, HumanEval 등)에서 해당 현상 확인
- 비일관성을 모호성 해소의 지표로 사용하는 기존 방식의 한계 지적
대규모 언어 모델 (LLMs)은 작업 설명이 명확하고 정밀할 때 코드를 생성하는 데 점점 더 효과적이 되고 있습니다. 그러나 실제로 사용자가 제공하는 작업 설명은 모호하거나, 불완전하거나, 모순되는 경우가 많아 의도된 프로그램 동작의 중요한 측면이 미지정(underspecified)된 상태로 남게 됩니다. 이러한 경우, 행동적으로는 서로 다른 여러 해석이 설명을 동일하게 잘 충족할 수 있지만, 사용자의 의도에 영향을 미치는 방식으로 의미론적으로는 다를 수 있습니다. 연구자들이 흔히 가정하는 자연스러운 기대치는 프롬프트의 미지정(underspecification)이 비일관성 (incoherence)으로 나타난다는 것입니다. 즉, 여러 번 질문했을 때 LLM이 작업 설명의 모호성을 반영하여 의미론적으로 서로 다른 여러 구현을 생성한다는 것입니다. 본 논문에서 우리는 이 가설에 이의를 제기합니다. 우리는 LLM이 작업 설명에 대해 하나의 잘못된 해석으로 빈번하게 붕괴(collapse)되어, 일관성(coherent)은 있지만 행동적으로는 의도와 일치하지 않는 코드를 지속적으로 생성한다는 것을 발견했습니다. 우리는 이러한 실패 모드를 해로운 의미론적 붕괴 (detrimental semantic collapse)라고 명명하며, 이것이 잘 정의된 것으로 간주되는 모든 벤치마크인 MBPP의 10% 이상, HumanEval의 3%, 그리고 LiveCodeBench의 32%에 영향을 미친다는 것을 확인했습니다. 벤치마크 프롬프트에 의도적으로 미지정 문제를 주입했을 때, 그 비율은 5배 이상 증가하며, 이는 프롬프트 미지정의 대리 지표(proxy)로 비일관성을 사용하는 모호성 해소(disambiguation) 및 정확성 추정 기술의 근본적인 사각지대를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기