코드 생성 시 대규모 언어 모델(LLM)을 위한 작업 기권 (Task Abstention)
요약
본 논문은 LLM이 코드 생성 시 발생시키는 환각(hallucination) 문제를 해결하기 위해, 특정 작업을 수행할지 혹은 기권할지를 결정하는 '작업 기권(task abstention)' 메커니즘을 제안합니다. 다중 가설 검정 원칙에 기반한 보정된 기권 규칙을 통해 코드 실행 결과를 바탕으로 생성 일관성을 평가하며, 외부 데이터베이스 없이도 구문론적 다양성을 처리할 수 있습니다.
핵심 포인트
- LLM의 코드 생성 시 발생하는 환각 현상을 방지하기 위한 작업 기권(task abstention) 연구
- 다중 가설 검정 원칙을 활용하여 코드 실행 결과로 생성 일관성을 평가하는 보정된 규칙 제안
- 오라클 테스트 케이스나 외부 데이터베이스에 의존하지 않는 분포가 없는(distribution-free) 이론적 보장 제공
- 기존 기술 대비 환각 유발 작업을 더 정확하게 식별하여 안전하고 견고한 코드 생성 가능
대규모 언어 모델 (LLMs)은 자동화된 코드 생성 분야에 혁신을 가져왔습니다. 그러나 한 가지 심각한 우려 사항은 이른바 "환각 (hallucination)", 즉 LLM이 겉보기에는 그럴듯해 보이지만 기능적으로는 잘못된 코드를 생성할 수 있다는 점입니다. 본 논문에서 우리는 작업 기권 (task abstention) 문제, 즉 발생 가능성이 높은 환각을 피하기 위해 주어진 LLM이 특정 코드 생성 작업을 수행하는 것을 기권해야 하는지 여부를 결정하는 문제를 연구합니다. 우리의 접근 방식은 다중 가설 검정 (multiple hypothesis testing) 원칙에 기반한 보정된 기권 규칙 (calibrated abstention rule)을 특징으로 합니다. 이 규칙은 코드 실행 결과(code execution outcomes)를 통해 생성 일관성 (generation consistency)을 평가하며, 이를 통해 오라클 테스트 케이스 (oracle test cases)나 외부 데이터베이스에 의존하지 않고도 의미론적으로 동일한 코드의 구문론적 다양성 (syntactic diversity)을 처리할 수 있습니다. 우리는 우리의 접근 방식이 기권 결정에 대해 엄격하고 분포가 없는 (distribution-free) 이론적 보장을 제공함을 증명합니다. 우리는 여러 오픈 소스 코드 LLM을 사용하여 벤치마크 데이터셋에서 우리의 방법을 평가합니다. 결과에 따르면, 우리의 방법은 기존 기술과 비교했을 때 생성 모델이 환각을 유발하는 작업을 더 정확하고 효율적으로 식별하고 기권할 수 있도록 하여, 더 안전하고 견고한 코드 생성을 위한 신뢰할 수 있는 메커니즘을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기