소형 언어 모델(SLM)을 위한 코드 가이드 추론: 실행 가능한 MCQA 스캐폴드 평가
요약
본 연구는 소형 언어 모델(SLM)이 외부 도구 및 코드와 같은 스캐폴드를 활용할 때의 성능 변화를 측정하기 위한 '코드 가이드 추론(CGR)' 프레임워크를 제안합니다. CGR은 MCQA 작업에서 실행 가능한 Python 스캐폴드를 표준화된 구성 요소로 제공하여, 모델의 직접 답변 능력과 보조 추론 능력 간의 성능 차이를 체계적으로 평가합니다.
핵심 포인트
- 코드 가이드 추론(CGR)은 SLM의 외부 스캐폴드 활용 능력을 평가하기 위한 표준화된 프로토콜과 프로그램 리소스를 제공합니다.
- 실험 결과, 보조 추론을 사용할 경우 직접 답변 방식보다 정확도가 최대 28.10%포인트 향상되는 효과를 확인했습니다.
- CGR은 정규화된 인터페이스, Python 스캐폴드, 추출 헬퍼 등 6가지 핵심 구성 요소를 통해 평가 과정을 표준화합니다.
- 보조 추론 과정에서 발생하는 높은 계산 비용, 정답 추출의 취약성, 생성된 프로그램의 지침 위반 등의 한계점을 분석합니다.
객관식 질의응답(MCQA) 벤치마크는 보통 소형 언어 모델(Small Language Models, SLMs)을 직접적인 답변자로 평가하지만, 실제로 배포된 언어 모델 시스템은 도구(tools), 코드, 반복적인 모델 호출과 같은 외부 스캐폴드(scaffolds)에 점점 더 많이 의존하고 있습니다. 본 연구에서는 실행 가능한 추론 스캐폴드가 MCQA 작업에서 SLM의 성능을 언제 향상시키는지 측정하기 위한 평가 프로토콜이자 생성된 프로그램 리소스인 코드 가이드 추론(Code-Guided Reasoning, CGR)을 소개합니다. CGR은 정규화된 문항 인터페이스(normalized item interface), 직접 솔버 프롬프트(direct solver prompt), 생성기 프롬프트(generator prompt), Python 스캐폴드, 솔버 호출(solver-call) 및 추출 헬퍼(extraction helpers), 그리고 3채널 결과 기록(three-channel result record)의 6가지 구성 요소를 표준화합니다. 로컬에서 준비된 MCQA 번들과 6개의 메타데이터 등록 솔버 모델로부터 추출한 20,498개의 보존된 결과 행을 대상으로 분석한 결과, 관찰된 비제로-베이스라인(non-zero-baseline) 파티션은 66.21%의 매크로 보조 정확도(macro assisted accuracy)를 보였으며, 이는 38.11%의 직접 정확도(direct accuracy)와 비교하여 [20.32, 36.43]의 쌍-부트스트랩 구간(pair-bootstrap interval) 내에서 +28.10%포인트의 차이를 나타냅니다. 더 엄격한 Ab > 30% 직접 신호 게이트(direct-signal gate) 하에서는 매크로 차이가 +14.11포인트입니다. 이러한 추정치는 기술적(descriptive)입니다. 보조 추론(Assisted inference)은 더 큰 솔버 호출 예산을 사용하며, 정답 추출은 취약하고, Time-MQA에는 관찰된 퇴보(regressions)가 포함되어 있으며, 일부 생성된 프로그램은 하드코딩 금지(no-hard-coding) 지침을 위반합니다. CGR은 직접, 보조 및 생성기 측 답변, 파티션 정의, 생성된 프로그램, 응답 메타데이터 및 감사(audits)를 포함하여 이러한 결과를 해석하는 데 필요한 추적 패키지(trace package)를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기