arXiv논문2026. 04. 27. 19:30

BLAST: ASP 기반 구조화된 테스트를 통한 LLM 평가

요약

본 기술 기사는 대형 언어 모델(LLMs)의 성능을 평가하기 위한 새로운 방법론인 BLAST를 소개합니다. BLAST는 특히 명시적 패러다임인 Answer Set Programming (ASP) 코드를 생성하는 정확도를 측정하도록 설계된 구조화된 벤치마킹 프레임워크입니다. 이 연구는 ASP 코드 생성을 위해 개발된 두 가지 의미적 지표와 10개의 그래프 관련 문제를 사용하여 다양한 최신 LLM 8개를 대상으로 실증적인 평가를 수행했습니다.

핵심 포인트

LLMs의 성능을 평가할 때, 명시적 패러다임인 Answer Set Programming (ASP) 처리에 대한 전용 벤치마킹이 필요하다.
BLAST는 ASP 코드 생성에 특화된 구조화된 평가 프레임워크를 제공한다.
BLAST는 기존의 의미론적 지표 외에 두 가지 새로운 의미적 지표를 포함하여 평가의 깊이를 더했다.
본 연구는 10개의 그래프 관련 문제와 8개의 최신 LLM을 대상으로 ASP 코드 생성 능력을 실증적으로 검증했다.

대형 언어 모델 (LLMs) 은 자연어 이해, 대화 시스템, 코드 생성을 포함한 광범위한 작업에서 놀라운 성능을 입증해 왔습니다. 그러나 지금까지 명시적 패러다임인 Answer Set Programming (ASP) 을 처리하는 데 있어서의 효과성은 상대적으로 덜 주목받아 왔습니다. 본 논문에서는 LLM 이 ASP 코드를 생성하는 정확도를 평가하기 위한 최초의 전용 벤치마킹 방법론 및 관련 데이터셋인 BLAST 를 소개합니다. BLAST 는 ASP 코드 생성에 맞춰 설계된 두 가지 새로운 의미적 지표를 특징으로 하는 구조화된 평가 프레임워크를 제공합니다. 본 논문은 ASP 문헌에서 유래한 10 개의 잘 알려진 그래프 관련 문제와 다양한 최신 대형 언어 모델 (LLM) 8 개를 대상으로 한 실증 평가 결과를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

BLAST: ASP 기반 구조화된 테스트를 통한 LLM 평가

요약

핵심 포인트

댓글