루브릭 기반 기준을 사용하여 CS1 C++ 프로그래밍 과제를 평가하기 위한 BART 활용 연구
요약
입문용 C++ 프로그래밍 과제의 자동 채점을 위해 루브릭을 인지하는 BART 모델의 멀티태스크 미세 조정 방식을 연구합니다. LoRA 기술과 분포 매칭 기법을 적용하여 교수자의 채점 방식과 유사한 성적 예측을 생성하는 데 집중합니다.
핵심 포인트
- 루브릭 컨텍스트를 활용한 멀티태스크 BART 모델 제안
- LoRA 기술을 적용한 BART 인코더-디코더 구조 사용
- 경계 기반 소프트 라벨이 단일 작업 모델보다 높은 정확도 달성
- 분포 매칭을 통해 예측 성적과 실증 성적 간의 일치성 향상
본 논문은 일반 목적의 LLM (Large Language Models)보다 교수자의 채점 동작을 더 잘 반영하는 성적 예측을 생성하는 것을 목표로, 입문용 C++ 프로그래밍 과제의 자동 채점을 위한 트랜스포머 (Transformer) 모델의 루브릭 인지형 멀티태스크 미세 조정 (Multitask Fine-tuning)을 조사합니다. 여러 학기에 걸친 CS1 데이터를 사용하여, 학생의 제출물은 숫자 점수, 알파벳 성적 구간(Letter-grade buckets), 그리고 과제 루브릭 (Rubrics)과 쌍을 이루며, 이후 트랜스포머 입력용 통합 시퀀스로 전처리됩니다. LoRA (Low-Rank Adaptation) 적응 기술이 적용된 BART 인코더-디코더 (Encoder-decoder)는 숫자 점수와 성적 구간을 공동으로 예측하도록 학습되며, 이전 연구에서 자주 간과되었던 평가 차원인 예측 성적 분포와 실증적 성적 분포를 일치시키기 위한 분포 매칭 (Distribution-matching) 항이 추가됩니다. 실험에서는 단일 작업 (Single-task) 및 멀티태스크 학습, 하드 원-핫 (Hard one-hot) 대 퍼지(Fuzzy) 및 경계 기반 소프트 라벨 (Boundary-based soft labels), 그리고 루브릭 유무 조건, 그리고 추가적인 T5 및 쌍별 사전 학습 (Pairwise-pretrained) 변형 모델들을 비교합니다. 결과에 따르면, 경계 기반 소프트 라벨과 루브릭 컨텍스트를 사용한 멀티태스크 BART는 단일 작업, 하드 라벨, 또는 코드 전용 베이스라인보다 더 낮은 평균 절대 오차 (MAE, Mean Absolute Error)와 더 강력한 성적 분포 일치성을 달성합니다. 완전히 미세 조정된 T5는 분포 충실도 (Distributional fidelity)를 더욱 향상시키는 반면, 쌍별 사전 학습은 소수 클래스 민감도 (Minority-class sensitivity)를 희생하면서 숫자 오차를 줄입니다. 종합적으로, 본 연구 결과는 보정 인지형 (Calibration-aware) 및 루브릭 가이드 학습이 정확도 최적화 방식보다 더 교수자와 유사한 채점 동작을 생성함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기