본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:54

CombEval: 대규모 언어 모델(LLM)의 조합론적 계수(Combinatorial Counting) 평가를 위한 프레임워크

요약

LLM의 조합론적 계수 능력을 평가하기 위한 동적 벤치마크인 CombEval을 제안합니다. 이 프레임워크는 다양한 제약 조건과 객체 의존성을 포함한 문제를 생성하여 모델의 추론 능력을 체계적으로 진단합니다.

핵심 포인트

  • CombEval은 엔티티, 객체, 제약 조건을 활용한 동적 문제 생성 프레임워크임
  • 11개 LLM 평가 결과, 순서 있는 객체 및 중첩된 의존성에서 취약점 발견
  • 제약 조건 해석 및 계수 원칙 적용에서의 오류를 식별함
  • 조합론적 추론 실패 원인을 연구하기 위한 진단 테스트베드 제공

우리는 대규모 언어 모델(Large Language Models, LLMs)의 조합론적 계수(Combinatorial Counting)를 평가하기 위한 동적 벤치마크인 CombEval을 제시합니다. CombEval은 각 문제를 엔티티(entities), 조합 객체(combinatorial objects), 객체 의존성(object dependencies) 및 제약 조건(constraints)에 대한 유형화된 Cofola 명세(specification)로 표현하여, 정확한 솔버(solver)로 검증된 정답을 가진 자연어 계수 문제의 통제된 생성을 가능하게 합니다. 정적인 컬렉션과 달리, CombEval은 객체 유형, 엔티티 규모, 제약 조건 수 및 추론 깊이의 체계적인 변화를 지원합니다. 우리는 직접적인 설정과 코드 증강(code-augmented) 설정 하에서 11개의 LLM을 평가하였으며, 모델들이 순서가 있는 객체(ordered objects), 구별 불가능한 요소(indistinguishable elements), 상대적 위치 제약(relatively positional constraints) 및 중첩된 객체 의존성(nested object dependencies)에서 여전히 취약하다는 것을 발견했습니다. 오류 분석을 통해 제약 조건 해석 및 계수 원칙에서의 실패를 추가로 식별했습니다. CombEval은 LLM이 언제, 왜 조합론적 추론(combinatorial reasoning)에 실패하는지 연구하기 위한 진단 테스트베드를 제공합니다. 코드와 생성된 벤치마크 제품군은 \url{https://github.com/YuxuZhou-CN/combination-problem-generation}에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0