코드 생성 시 대규모 언어 모델(LLM)을 위한 작업 기권 (Task Abstention)

대규모 언어 모델 (LLMs)은 자동화된 코드 생성 분야에 혁신을 가져왔습니다. 그러나 한 가지 심각한 우려 사항은 이른바 "환각 (hallucination)", 즉 LLM이 겉보기에는 그럴듯해 보이지만 기능적으로는 잘못된 코드를 생성할 수 있다는 점입니다. 본 논문에서 우리는 작업 기권 (task abstention) 문제, 즉 발생 가능성이 높은 환각을 피하기 위해 주어진 LLM이 특정 코드 생성 작업을 수행하는 것을 기권해야 하는지 여부를 결정하는 문제를 연구합니다. 우리의 접근 방식은 다중 가설 검정 (multiple hypothesis testing) 원칙에 기반한 보정된 기권 규칙 (calibrated abstention rule)을 특징으로 합니다. 이 규칙은 코드 실행 결과(code execution outcomes)를 통해 생성 일관성 (generation consistency)을 평가하며, 이를 통해 오라클 테스트 케이스 (oracle test cases)나 외부 데이터베이스에 의존하지 않고도 의미론적으로 동일한 코드의 구문론적 다양성 (syntactic diversity)을 처리할 수 있습니다. 우리는 우리의 접근 방식이 기권 결정에 대해 엄격하고 분포가 없는 (distribution-free) 이론적 보장을 제공함을 증명합니다. 우리는 여러 오픈 소스 코드 LLM을 사용하여 벤치마크 데이터셋에서 우리의 방법을 평가합니다. 결과에 따르면, 우리의 방법은 기존 기술과 비교했을 때 생성 모델이 환각을 유발하는 작업을 더 정확하고 효율적으로 식별하고 기권할 수 있도록 하여, 더 안전하고 견고한 코드 생성을 위한 신뢰할 수 있는 메커니즘을 제공합니다.

Insights

코드 생성 시 대규모 언어 모델(LLM)을 위한 작업 기권 (Task Abstention)

요약

핵심 포인트

댓글

책임 있는 개인화: 인간-로봇 상호작용에서의 양날의 검

TopoBrick: 제로샷 빌딩 IoT 예측을 위한 외생 변수의 에이전트적 토폴로지 샘플링

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어

TopoBrick: 제로샷 빌딩 IoT 예측을 위한 외생 변수의 에이전트적 토폴로지 샘플링

이번 글은 1편(DB증권), 2편(모건스탠리)에 이어지는 세 번째 이야기입니다.

ExplAIner: 분류 모델 설명(Explanation)을 위한 선언적 질의 언어