arXiv논문2026. 05. 29. 10:50

선호도 기반 최대 만족도(MaxSAT)를 통한 대규모 언어 모델(LLM)의 신뢰할 수 있는 추론

요약

LLM이 복잡한 제약 조건과 사용자 선호도를 해결하기 위해 MaxSAT 문제를 Python 코드로 변환하여 추론하는 하이브리드 방식을 제안합니다. 생성된 코드는 솔버를 통해 실행 가능성과 최적성을 독립적으로 검증받아 추론의 신뢰성을 높입니다.

핵심 포인트

LLM의 코드 생성을 통한 추론 외재화 방식 제안
MaxSAT 솔버를 활용한 제약 조건 및 선호도 최적화
솔버를 통한 생성된 코드의 실행 가능성 및 최적성 검증
기존 CoT, PoT 방식 대비 높은 수용률 달성

대규모 언어 모델 (LLMs)은 자연어를 이해하는 데 탁월하지만, 로보틱스(robotics)와 같은 분야에서 흔히 발생하는 다중 제약 조건 및 사용자 정의 선호도가 포함된 최적화(optimisation) 작업에는 어려움을 겪습니다. 우리는 LLM이 코드 생성(code generation)을 통해 추론을 외재화하는 하이브리드 추론 접근 방식을 제안합니다. 자연어 문제 설명이 주어지면, LLM은 사용자 정의 제약 조건과 선호도를 선호도 기반 최대 만족도 (Preference-based Maximum Satisfiability, MaxSAT) 문제로 인코딩하는 Python 코드를 생성하며, 이는 이후 정확한 MaxSAT 솔버(solver)에 의해 해결됩니다. 정확성을 보장하기 위해, 모델이 생성한 코드가 반환한 솔루션은 표준 MaxSAT 인코딩(canonical MaxSAT encoding)에 대해 실행 가능성(feasibility)과 최적성(optimality)을 독립적으로 검증받으며, 이를 통해 서로 다른 인코딩과 다수의 최적해를 허용할 수 있습니다. 우리는 세 가지 유형의 선호도 기반 추론 작업에 대해 오픈 소스 및 폐쇄형(closed-access) LLM을 모두 사용하여 우리의 접근 방식을 평가하였으며, 동일한 모델을 사용하는 직접 답변(direct-answer), 생각의 사슬 (Chain-of-Thought, CoT), 프로그램 기반 사고 (Program-of-Thought, PoT) 베이스라인과 비교하였습니다. 이러한 베이스라인들은 실행 가능한 솔루션을 거의 생성하지 못하는 반면, MaxSAT 기반 파이프라인은 실질적으로 더 높은 수용률(acceptance rates)을 달성하였으며, 일부 사례에서는 80%를 초과했습니다. 우리의 결과는 LLM 주도 코드 생성과 선호도 기반 MaxSAT의 결합이 생성된 인코딩에 대해 솔버로 검증 가능한 최적화를 가능하게 하며, 독립적으로 검증된 참조 의미론(reference semantics) 하에서 정확성을 실질적으로 향상시킨다는 것을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

선호도 기반 최대 만족도(MaxSAT)를 통한 대규모 언어 모델(LLM)의 신뢰할 수 있는 추론

요약

핵심 포인트

댓글