본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:55

LLMEval-Logic: 적대적 강화(Adversarial Hardening)를 통한 LLM의 논리적 추론 평가를 위한 솔버 검증 기반

요약

LLMEval-Logic은 LLM의 논리적 추론 능력을 정밀하게 평가하기 위해 제안된 새로운 벤치마크입니다. Z3 솔버를 활용한 형식적 검증과 적대적 강화(Adversarial Hardening) 워크플로우를 통해 기존 벤치마크의 한계를 극복하고, 현실적인 시나리오 기반의 고난도 논리 추론 항목을 제공합니다. 실험 결과, 최신 LLM들도 고난도 항목에서는 낮은 정확도를 보이며 여전히 논리적 추론에 큰 어려움을 겪고 있음이 확인되었습니다.

핵심 포인트

  • Z3 솔버를 사용하여 자연어 논리 추론의 정답을 형식적으로 검증하고 채점 루브릭을 구축함
  • 폐쇄 루프 적대적 워크플로우를 통해 모델이 풀기 어려운 고난도(Hard) 항목을 생성 및 강화함
  • Base 및 Hard 두 가지 하위 집합으로 구성되어 체계적인 단계별 평가가 가능함
  • 최신 LLM들을 평가한 결과, 고난도 항목의 정확도가 37.5%에 불과할 정도로 모델 간 성능 격차가 큼

자연어 논리 추론 (Natural-language logical reasoning)에서 거대 언어 모델 (LLMs)을 평가하는 것은 필수적입니다. 규칙 기반 작업 (Rule-governed tasks)은 결론이 명시된 전제로부터 엄격하게 도출되어야 하기 때문입니다. 기존의 많은 논리 추론 벤치마크들은 샘플링된 공식 (Formulas)으로부터 자연어 항목을 템플릿화하여 생성되며, 거칠거나 검증되지 않은 형식적 주석 (Formal annotations)만을 제공하고, 현재 최첨단 추론 모델들에 의해 빠르게 포화 상태에 이르고 있습니다. 본 논문에서는 현실적인 상황 시나리오를 기반으로 구축된 중국어 논리 추론 벤치마크인 LLMEval-Logic을 제시합니다. 이 파이프라인은 자연어 항목과 그에 대응하는 참조 형식화 (Reference formalizations)를 함께 자동 생성하고 전문가가 검토하며, Z3를 통해 주석 처리된 정답을 검증하고, 자연어에서 형식적 단계로의 채점을 위한 전문가 루브릭 (Expert rubrics)을 구축하며, 폐쇄 루프 적대적 워크플로우 (Closed-loop adversarial workflow)를 통해 선택된 항목을 강화합니다. 이 벤치마크는 두 개의 쌍을 이룬 하위 집합으로 공개됩니다: 1,400개의 전문가 개발 루브릭 원자 (Rubric atoms)가 포함된 246개 항목의 Base 하위 집합과, 폐쇄된 모델 공간 (Closed model spaces)에 대해 938개의 다단계 하위 질문 (Multi-step sub-questions)을 포함하는 190개 항목의 Hard 하위 집합입니다. 14개의 최첨단 LLMs를 LLMEval-Logic으로 평가한 결과, 현재 모델들 사이의 상당한 격차가 드러났습니다: 가장 우수한 모델조차 Hard 항목 정확도 (Hard Item Accuracy)가 37.5%에 불과하며, 참조 기호 (Reference symbols)를 사용하더라도 평가된 모델 중 가장 높은 Z3+루브릭 결합 형식화 점수 (Joint Z3+Rubric formalization score)는 60.16%에 그쳤습니다. 본 벤치마크는 https://github.com/llmeval/LLMEval-Logic 에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0