본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:30

BLAST: ASP 기반 구조화된 테스트를 통한 LLM 평가

요약

본 기술 기사는 대형 언어 모델(LLMs)의 성능을 평가하기 위한 새로운 방법론인 BLAST를 소개합니다. BLAST는 특히 명시적 패러다임인 Answer Set Programming (ASP) 코드를 생성하는 정확도를 측정하도록 설계된 구조화된 벤치마킹 프레임워크입니다. 이 연구는 ASP 코드 생성을 위해 개발된 두 가지 의미적 지표와 10개의 그래프 관련 문제를 사용하여 다양한 최신 LLM 8개를 대상으로 실증적인 평가를 수행했습니다.

핵심 포인트

  • LLMs의 성능을 평가할 때, 명시적 패러다임인 Answer Set Programming (ASP) 처리에 대한 전용 벤치마킹이 필요하다.
  • BLAST는 ASP 코드 생성에 특화된 구조화된 평가 프레임워크를 제공한다.
  • BLAST는 기존의 의미론적 지표 외에 두 가지 새로운 의미적 지표를 포함하여 평가의 깊이를 더했다.
  • 본 연구는 10개의 그래프 관련 문제와 8개의 최신 LLM을 대상으로 ASP 코드 생성 능력을 실증적으로 검증했다.

대형 언어 모델 (LLMs) 은 자연어 이해, 대화 시스템, 코드 생성을 포함한 광범위한 작업에서 놀라운 성능을 입증해 왔습니다. 그러나 지금까지 명시적 패러다임인 Answer Set Programming (ASP) 을 처리하는 데 있어서의 효과성은 상대적으로 덜 주목받아 왔습니다. 본 논문에서는 LLM 이 ASP 코드를 생성하는 정확도를 평가하기 위한 최초의 전용 벤치마킹 방법론 및 관련 데이터셋인 BLAST 를 소개합니다. BLAST 는 ASP 코드 생성에 맞춰 설계된 두 가지 새로운 의미적 지표를 특징으로 하는 구조화된 평가 프레임워크를 제공합니다. 본 논문은 ASP 문헌에서 유래한 10 개의 잘 알려진 그래프 관련 문제와 다양한 최신 대형 언어 모델 (LLM) 8 개를 대상으로 한 실증 평가 결과를 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0