arXiv논문2026. 06. 19. 11:54

CombEval: 대규모 언어 모델(LLM)의 조합론적 계수(Combinatorial Counting) 평가를 위한 프레임워크

요약

LLM의 조합론적 계수 능력을 평가하기 위한 동적 벤치마크인 CombEval을 제안합니다. 이 프레임워크는 다양한 제약 조건과 객체 의존성을 포함한 문제를 생성하여 모델의 추론 능력을 체계적으로 진단합니다.

핵심 포인트

CombEval은 엔티티, 객체, 제약 조건을 활용한 동적 문제 생성 프레임워크임
11개 LLM 평가 결과, 순서 있는 객체 및 중첩된 의존성에서 취약점 발견
제약 조건 해석 및 계수 원칙 적용에서의 오류를 식별함
조합론적 추론 실패 원인을 연구하기 위한 진단 테스트베드 제공

우리는 대규모 언어 모델(Large Language Models, LLMs)의 조합론적 계수(Combinatorial Counting)를 평가하기 위한 동적 벤치마크인 CombEval을 제시합니다. CombEval은 각 문제를 엔티티(entities), 조합 객체(combinatorial objects), 객체 의존성(object dependencies) 및 제약 조건(constraints)에 대한 유형화된 Cofola 명세(specification)로 표현하여, 정확한 솔버(solver)로 검증된 정답을 가진 자연어 계수 문제의 통제된 생성을 가능하게 합니다. 정적인 컬렉션과 달리, CombEval은 객체 유형, 엔티티 규모, 제약 조건 수 및 추론 깊이의 체계적인 변화를 지원합니다. 우리는 직접적인 설정과 코드 증강(code-augmented) 설정 하에서 11개의 LLM을 평가하였으며, 모델들이 순서가 있는 객체(ordered objects), 구별 불가능한 요소(indistinguishable elements), 상대적 위치 제약(relatively positional constraints) 및 중첩된 객체 의존성(nested object dependencies)에서 여전히 취약하다는 것을 발견했습니다. 오류 분석을 통해 제약 조건 해석 및 계수 원칙에서의 실패를 추가로 식별했습니다. CombEval은 LLM이 언제, 왜 조합론적 추론(combinatorial reasoning)에 실패하는지 연구하기 위한 진단 테스트베드를 제공합니다. 코드와 생성된 벤치마크 제품군은 \url{https://github.com/YuxuZhou-CN/combination-problem-generation}에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CombEval: 대규모 언어 모델(LLM)의 조합론적 계수(Combinatorial Counting) 평가를 위한 프레임워크

요약

핵심 포인트

댓글