arXiv논문2026. 06. 30. 11:26

SAKE: 대규모 언어 모델(LLM)을 위한 소프트웨어 아키텍처 지식 평가 벤치마크

요약

LLM의 소프트웨어 아키텍처 추론 능력을 평가하기 위한 새로운 벤치마크인 SAKE를 소개합니다. 전문가가 큐레이션한 2,154개의 문제를 통해 다양한 아키텍처 카테고리와 컨텍스트 길이에 따른 모델별 성능 격차를 분석합니다.

핵심 포인트

소프트웨어 아키텍처 지식 평가를 위한 표준화된 벤치마크 SAKE 제안
8개 아키텍처 카테고리와 4개 컨텍스트 길이 수준의 계층적 구조
11개 주요 LLM 모델의 제로샷 및 5-샷 성능 평가 수행
모델별 카테고리에 따른 현저한 성능 차이 및 역량 격차 확인
벤치마크 데이터셋 및 평가 스크립트 오픈 소스 공개

대규모 언어 모델 (LLMs)은 소프트웨어 개발 생명 주기 전반에 걸쳐 어시스턴트로 점점 더 많이 사용되고 있지만, 소프트웨어 아키텍처에 대해 추론하는 능력은 여전히 거의 측정되지 않은 상태로 남아 있습니다. 아키텍처 의사 결정은 품질 속성 간의 트레이드오프 (trade-offs), 디자인 패턴 (design patterns), 그리고 시스템 수준의 제약 조건에 의존하며, 구문론적 또는 알고리즘적 과제를 목표로 하는 벤치마크들은 이러한 요소들을 연습시키지 못합니다. 우리는 LLM의 소프트웨어 아키텍처 지식을 평가하기 위한 표준화되고 재현 가능한 벤치마크인 SAKE (Software Architectural Knowledge Evaluation)를 소개합니다. SAKE는 전문가가 큐레이션한 2154개의 객관식 문제로 구성되어 있으며, 각 문제는 4개의 선택지를 가집니다. 이 문제들은 8개의 아키텍처 카테고리와 4개의 컨텍스트 길이 (context-length) 수준으로 계층화되어 있습니다. 우리는 11개의 폐쇄형 (proprietary) 및 오픈 웨이트 (open-weight) 모델을 제로샷 (zero-shot) 및 5-샷 (five-shot) 설정에서 평가합니다. 전반적인 정확도는 높지만, 카테고리에 따라 성능 차이가 현저하게 나타나며, 이는 전문적인 실무의 핵심 영역에서 역량 격차가 있음을 보여줍니다. SAKE, 평가 스크립트, 그리고 모든 결과는 커뮤니티가 LLM의 아키텍처 추론을 추적할 수 있는 기준점 (baseline)을 제공하기 위해 오픈 소스로 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAKE: 대규모 언어 모델(LLM)을 위한 소프트웨어 아키텍처 지식 평가 벤치마크

요약

핵심 포인트

댓글