소형 언어 모델(SLM)을 위한 코드 가이드 추론: 실행 가능한 MCQA 스캐폴드 평가

객관식 질의응답(MCQA) 벤치마크는 보통 소형 언어 모델(Small Language Models, SLMs)을 직접적인 답변자로 평가하지만, 실제로 배포된 언어 모델 시스템은 도구(tools), 코드, 반복적인 모델 호출과 같은 외부 스캐폴드(scaffolds)에 점점 더 많이 의존하고 있습니다. 본 연구에서는 실행 가능한 추론 스캐폴드가 MCQA 작업에서 SLM의 성능을 언제 향상시키는지 측정하기 위한 평가 프로토콜이자 생성된 프로그램 리소스인 코드 가이드 추론(Code-Guided Reasoning, CGR)을 소개합니다. CGR은 정규화된 문항 인터페이스(normalized item interface), 직접 솔버 프롬프트(direct solver prompt), 생성기 프롬프트(generator prompt), Python 스캐폴드, 솔버 호출(solver-call) 및 추출 헬퍼(extraction helpers), 그리고 3채널 결과 기록(three-channel result record)의 6가지 구성 요소를 표준화합니다. 로컬에서 준비된 MCQA 번들과 6개의 메타데이터 등록 솔버 모델로부터 추출한 20,498개의 보존된 결과 행을 대상으로 분석한 결과, 관찰된 비제로-베이스라인(non-zero-baseline) 파티션은 66.21%의 매크로 보조 정확도(macro assisted accuracy)를 보였으며, 이는 38.11%의 직접 정확도(direct accuracy)와 비교하여 [20.32, 36.43]의 쌍-부트스트랩 구간(pair-bootstrap interval) 내에서 +28.10%포인트의 차이를 나타냅니다. 더 엄격한 Ab > 30% 직접 신호 게이트(direct-signal gate) 하에서는 매크로 차이가 +14.11포인트입니다. 이러한 추정치는 기술적(descriptive)입니다. 보조 추론(Assisted inference)은 더 큰 솔버 호출 예산을 사용하며, 정답 추출은 취약하고, Time-MQA에는 관찰된 퇴보(regressions)가 포함되어 있으며, 일부 생성된 프로그램은 하드코딩 금지(no-hard-coding) 지침을 위반합니다. CGR은 직접, 보조 및 생성기 측 답변, 파티션 정의, 생성된 프로그램, 응답 메타데이터 및 감사(audits)를 포함하여 이러한 결과를 해석하는 데 필요한 추적 패키지(trace package)를 제공합니다.

Insights

소형 언어 모델(SLM)을 위한 코드 가이드 추론: 실행 가능한 MCQA 스캐폴드 평가

요약

핵심 포인트

댓글

모닝 비드(Morning Bid): 반도체 주가 하락

Bullish, 6월 거래량 509억 달러 기록; Ethereum 변동성 67%로 상승

Equifax, 7억 5,000만 달러에 멕시코의 Círculo de Crédito 인수 예정

Vertex, 100억 달러 규모의 Crinetics 인수 계약 체결

Bullish, 6월 거래량 509억 달러 기록; Ethereum 변동성 67%로 상승

Equifax, 7억 5,000만 달러에 멕시코의 Círculo de Crédito 인수 예정

Vertex, 100억 달러 규모의 Crinetics 인수 계약 체결