본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 13:40

국소적 추론 오류에 대한 피드백을 통한 LLM 기반 루프 불변량 합성 가이드

요약

LLM의 사고 과정을 공식적으로 검증하여 국소적 추론 오류를 탐지하고 피드백을 제공하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 루프 불변량 합성 문제에 적용되어, 모델의 자연어 증명을 1차 논리 함의로 변환함으로써 논리적 결함을 자동으로 식별합니다. 구현된 도구인 LORIS는 주요 벤치마크에서 93.1%의 높은 성공률을 기록하며 성능을 입증했습니다.

핵심 포인트

  • LLM의 사고 과정을 단계별 자연어 증명으로 생성하고 이를 1차 논리 함의로 변환하여 검증함
  • 추측 및 확인(guess-and-check) 패러다임을 통해 국소적 추론 오류에 대한 타겟팅된 피드백 제공
  • LORIS 도구를 통해 C 프로그램 벤치마크에서 93.1%의 루프 불변량 합성 성공률 달성
  • 비선형 특성을 포함한 까다로운 벤치마크에서도 모델의 견고함 확인

우리는 LLM(Large Language Model)의 사고 과정을 공식적으로 검증하고 국소적 추론 오류(local reasoning errors)를 탐지함으로써, "추측 및 확인(guess-and-check)" 패러다임 내에서 LLM에 건설적인 피드백을 제공하는 새로운 프레임워크를 제안합니다. 우리는 이 프레임워크를 루프 불변량 합성(loop invariant synthesis) 문제에 적용합니다. 우리는 모델이 생성한 루프 불변량의 검증 조건(verification condition)이 실패했을 때, 그 사고 과정을 정당화하는 단계별 자연어 증명을 생성하도록 프롬프트를 작성합니다. 그런 다음, LLM을 사용하여 해당 추론 단계들을 자동으로 확인할 수 있는 1차 논리 함의(first-order logic implications)로 변환합니다. 유효하지 않은 함의는 LLM의 사고 과정에서 정확한 논리적 결함을 지목하며, 우리는 이를 사용하여 개선을 위한 타겟팅된 피드백을 구성합니다. 우리는 LORIS라는 도구에 우리의 접근 방식을 구현하였으며, 460개의 C 프로그램으로 구성된 주요 벤치마크 제품군과 비선형 특성(non-linear properties)을 포함하는 50개의 C 프로그램으로 구성된 추가 벤치마크 제품군에서 이를 평가했습니다. 주요 벤치마크 제품군에서 LORIS는 445개의 프로그램을 해결하여 $93.1%$의 전체 성공률을 달성했습니다. LORIS는 또한 까다로운 비선형 벤치마크 제품군에서도 견고함(robustness)을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0