arXiv논문2026. 06. 10. 11:17

KCSAT-ML: 전국 단위 코호트 인간 난이도를 통한 추론 모델 탐색

요약

수능 수학 문제를 활용한 새로운 추론 벤치마크 KCSAT-ML을 소개합니다. 전국 단위 코호트의 오답률 데이터를 기반으로 모델의 추론 능력을 인간의 난이도 체계와 비교 분석하는 DRG 메트릭을 제안합니다.

핵심 포인트

10년간의 수능 수학 문제와 공식 오답률을 포함한 데이터셋 구축
인간의 난이도와 모델의 실수를 비교하는 DRG 메트릭 제안
테스트 시간 스케일링(TTS)의 비단조적 정확도 이득 패턴 발견
모델별로 인간의 난이도 정렬 실패 양상이 다름을 입증

수학 추론 벤치마크 (Math reasoning benchmarks)가 급증하고 있지만, 대부분은 실제 인간의 수행 능력에 기반한 문항별 난이도 신호가 부족합니다. 우리는 10년(2014-2025)간의 한국 대학수학능력시험 (KCSAT; 수능) 수학 문제를 담은 KCSAT-ML을 소개합니다. 이는 수십만 명의 수험생으로 구성된 전국 단위 코호트 (nationwide cohorts)로부터 얻은 공식 문항별 오답률을 포함하는 664개의 문제와 339개의 핵심 세트로 구성됩니다. 우리는 이 벤치마크를 난이도 정렬 추론 이득 (Difficulty-aligned Reasoning Gain; DRG)과 결합합니다. DRG는 모델의 실수가 인간이 어렵다고 느낀 문항에 집중되는지, 아니면 인간이 쉽다고 느낀 문항에 집중되는지를 묻는 점수 직교 메트릭 (score-orthogonal metric)입니다. 이들을 통해 다양한 VLM (및 OCR을 통한 LLM)에 걸쳐 세 가지 패턴을 밝혀냈습니다: (i) 저예산 정확도 (low-budget accuracy)는 모든 모델 크기에서 인간의 오답률이 높은 꼬리 부분 (high-human-error tail)에서 붕괴합니다; (ii) 테스트 시간 스케일링 (test-time scaling; TTS)은 코호트 오답률에 따라 토큰 사용량을 대략 선형적으로 증가시키지만, 정확도 이득은 비단조적 곡선 (non-monotonic curve)을 따릅니다; (iii) 단일 제품군 내에서 TTS는 가장 어려운 문항에서의 안티 스케일링 (anti-scaling)과 쉬운 문항에서의 과잉 사고 (overthinking) 사이를 전환하며, 이는 동일한 정렬 실패 (alignment failure)의 두 가지 얼굴입니다. DRG 상에서 정확도가 거의 동일한 모델이라도 거의 정반대의 값을 가질 수 있습니다. 한 모델은 인간이 어렵다고 느끼는 문제를 틀리는 반면, 다른 모델은 가장 어려운 문제는 해결하면서 인간이 쉽다고 느끼는 문제는 틀립니다. 이는 총체적 정확도 (aggregate accuracy)가 숨기는 대조적인 모습입니다. 우리의 코드와 데이터셋 빌더는 https://github.com/naver-ai/KCSAT-ML 에서 오픈 소스로 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

KCSAT-ML: 전국 단위 코호트 인간 난이도를 통한 추론 모델 탐색

요약

핵심 포인트

댓글