arXiv논문2026. 06. 23. 12:36

NL2Scratch: 블록 기반 프로그래밍을 위한 실행 가능한 벤치마크 및 평가

요약

텍스트 기반 NL2Code 연구의 한계를 넘어, 블록 기반 프로그래밍인 Scratch를 위한 실행 가능한 벤치마크 NL2Scratch를 제안합니다. 새로운 평가 지표인 SAC를 통해 기존 지표가 놓치던 모델의 의미론적 오류를 정밀하게 측정합니다.

핵심 포인트

블록 기반 프로그래밍을 위한 31만 개 이상의 NL-Scratch 데이터셋 구축
의미론적 일치도를 측정하는 새로운 지표 SAC(Semantic Alignment Consistency) 제안
기존 어휘 유사성 지표와 실제 동작 일치도 사이의 격차 확인
LLM이 긴 예시나 특정 운영 슬롯(동작, 조건 등)에서 발생하는 오류 분석

Scratch와 같은 블록 기반 프로그래밍 (Block-based programming) 환경은 초기 프로그래밍 교육에서 널리 사용되지만, 자연어-코드 변환 (NL2Code) 연구는 주로 텍스트 기반 언어에 집중되어 왔습니다. Scratch 프로그램은 이벤트 기반 (event-driven)이며, 시각적으로 구성적 (visually compositional)이고, 병렬 스크립트 (concurrent scripts)에 분산되어 있어 기존의 NL2Code 가정과 평가 방식으로는 불충분합니다. 본 연구에서는 311,648개의 파서 유효 (parser-valid) NL-프로그램 쌍으로 구성된 자연어-Scratch 생성용 실행 가능한 벤치마크인 NL2Scratch를 소개합니다. 여기서 프로그램 측 데이터는 실제 Scratch 프로젝트에서 추출되었으며, 의미론적으로 정렬된 (semantically aligned) NL 설명과 쌍을 이룹니다. 표면적인 중첩 (surface overlap)을 넘어 신뢰할 수 있는 평가를 위해, 우리는 설명과 프로그램 사이의 의미론적 일치도를 측정하는 해석 가능한 슬롯 수준 (slot-level) 지표인 의미론적 정렬 일관성 (Semantic Alignment Consistency, SAC)을 제안합니다. SAC를 사용하여 우리는 의미론적으로 검증된 23,594개의 예시 풀과 슬롯 균형이 맞춰진 800개의 진단용 벤치마크를 구축했습니다. 지시어 튜닝 (instruction-tuned) 및 미세 조정 (fine-tuned)된 LLM들을 대상으로 한 실험 결과, 어휘적 유사성 (lexical similarity)과 의미론적 정렬 (semantic alignment) 사이에 상당한 격차가 있음이 드러났습니다. 토큰 수준의 F1 점수가 0.93 이상인 모델들도 특히 긴 예시에서는 완벽한 SAC를 달성하지 못하는 경우가 많았습니다. 오류는 동작 (actions), 조건 (conditions), 숫자 인자 (numeric arguments)와 같은 운영 슬롯 (operational slots)에 집중되어 있으며, 이는 기존 지표 하에서는 거의 보이지 않았던 실패 모드 (failure modes)를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

NL2Scratch: 블록 기반 프로그래밍을 위한 실행 가능한 벤치마크 및 평가

요약

핵심 포인트

댓글