arXiv논문2026. 06. 19. 10:31

QMFOL: 정량화 가능한 단항 1차 논리 (Monadic First-Order Logic) 테스트 케이스 생성을 통한 대규모 언어 모델 추론

요약

LLM의 연역적 추론 능력을 정밀하게 평가하기 위해 단항 1차 논리(QMFOL) 기반의 자동화된 벤치마크 생성 프레임워크를 제안합니다. 논리적 복잡성을 정밀하게 제어하며, 외부 증명기를 통해 논리적 일관성을 보장하는 QMFOLBench를 구축했습니다.

핵심 포인트

논리적 복잡성(깊이, 너비 등)을 정밀하게 제어 가능한 QMFOL 프레임워크 제안
외부 증명기를 활용한 왕복 검증으로 벤치마크의 논리적 일관성 확보
논리적 복잡성이 증가할수록 모델의 성능 저하 및 계산 오버헤드 증가 확인
모델들이 True 레이블 과제에서 더 높은 성능을 보이며 의미적 변화에 민감함을 발견

대규모 언어 모델 (LLMs)은 추론, 특히 고위험 의사결정에 필수적인 연역적 추론 (deductive reasoning) 분야에서 상당한 발전을 이루었습니다. 모델이 발전함에 따라, 평가 벤치마크 또한 그 속도에 맞춰 진화해야 합니다. 그러나 기존의 벤치마크들은 논리적 복잡성에 대한 세밀한 제어가 부족하며, 의미적 다양성 (semantic diversity)과 논리적 일관성 (logical consistency) 사이의 균형을 맞추는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 정량화 가능하고 제어 가능한 복잡성을 가진 단항 1차 논리 (monadic first-order logic) 추론 과제를 생성하기 위한 자동화된 프레임워크인 QMFOL을 제안합니다. 이 프레임워크는 논리곱 (conjunction) 및 논리합 (disjunction) 패턴을 사용하여 형식적 논리 구조를 구축함으로써 추론의 깊이 (depth), 너비 (width), 레이블 유형 (label types), 그리고 방해 요소 (distractors)를 정밀하게 제어할 수 있게 합니다. 이러한 구조는 LLM을 통해 자연어로 번역되며, 외부 증명기 (external prover)를 사용한 왕복 검증 (round-trip verification)을 통해 논리적 일관성을 보장합니다. 우리의 프레임워크를 바탕으로, 우리는 다양한 논리적 및 의미적 차원에 걸쳐 960개의 구성과 2880개의 인스턴스로 구성된 벤치마크인 QMFOLBench를 구축했습니다. 6개의 대규모 추론 모델 (LRMs) 및 2개의 LLM에 대한 평가 결과, 논리적 복잡성이 높아짐에 따라 성능은 저하되고 계산 오버헤드 (computational overhead)는 증가하는 것으로 나타났습니다. 모델들은 False 또는 Unknown 레이블 과제보다 True 레이블 과제에서 더 나은 성능을 보였으며, 의미적 변화 (semantic variation)에 민감하게 반응했습니다. 전반적으로, QMFOL은 제어 가능한 복잡성을 가진 연역적 추론 벤치마크를 구축하기 위한 확장 가능하고 신뢰할 수 있는 접근 방식을 제공하며, 현대 언어 모델의 추론 능력을 더욱 정밀하게 평가할 수 있게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QMFOL: 정량화 가능한 단항 1차 논리 (Monadic First-Order Logic) 테스트 케이스 생성을 통한 대규모 언어 모델 추론

요약

핵심 포인트

댓글