LLMEval-Logic: 적대적 강화(Adversarial Hardening)를 통한 LLM의 논리적 추론 평가를 위한 솔버 검증 기반

자연어 논리 추론 (Natural-language logical reasoning)에서 거대 언어 모델 (LLMs)을 평가하는 것은 필수적입니다. 규칙 기반 작업 (Rule-governed tasks)은 결론이 명시된 전제로부터 엄격하게 도출되어야 하기 때문입니다. 기존의 많은 논리 추론 벤치마크들은 샘플링된 공식 (Formulas)으로부터 자연어 항목을 템플릿화하여 생성되며, 거칠거나 검증되지 않은 형식적 주석 (Formal annotations)만을 제공하고, 현재 최첨단 추론 모델들에 의해 빠르게 포화 상태에 이르고 있습니다. 본 논문에서는 현실적인 상황 시나리오를 기반으로 구축된 중국어 논리 추론 벤치마크인 LLMEval-Logic을 제시합니다. 이 파이프라인은 자연어 항목과 그에 대응하는 참조 형식화 (Reference formalizations)를 함께 자동 생성하고 전문가가 검토하며, Z3를 통해 주석 처리된 정답을 검증하고, 자연어에서 형식적 단계로의 채점을 위한 전문가 루브릭 (Expert rubrics)을 구축하며, 폐쇄 루프 적대적 워크플로우 (Closed-loop adversarial workflow)를 통해 선택된 항목을 강화합니다. 이 벤치마크는 두 개의 쌍을 이룬 하위 집합으로 공개됩니다: 1,400개의 전문가 개발 루브릭 원자 (Rubric atoms)가 포함된 246개 항목의 Base 하위 집합과, 폐쇄된 모델 공간 (Closed model spaces)에 대해 938개의 다단계 하위 질문 (Multi-step sub-questions)을 포함하는 190개 항목의 Hard 하위 집합입니다. 14개의 최첨단 LLMs를 LLMEval-Logic으로 평가한 결과, 현재 모델들 사이의 상당한 격차가 드러났습니다: 가장 우수한 모델조차 Hard 항목 정확도 (Hard Item Accuracy)가 37.5%에 불과하며, 참조 기호 (Reference symbols)를 사용하더라도 평가된 모델 중 가장 높은 Z3+루브릭 결합 형식화 점수 (Joint Z3+Rubric formalization score)는 60.16%에 그쳤습니다. 본 벤치마크는 https://github.com/llmeval/LLMEval-Logic 에서 공개적으로 이용 가능합니다.

Insights

LLMEval-Logic: 적대적 강화(Adversarial Hardening)를 통한 LLM의 논리적 추론 평가를 위한 솔버 검증 기반

요약

핵심 포인트

댓글

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.

Show GN: ts6to7 - TypeScript 5/6 → 7(tsgo) 마이그레이션 자동화 codemod

통신사가 1000조짜리 데이터센터를 짓겠다는데, 하필 왜 SK텔레콤일까.

AI가 코드를 대신 짜주는 시대에, 빅테크가 사람을 수천 명씩 고객 현장으로 보내고 있다.