arXiv논문2026. 06. 23. 13:31

소프트웨어 공학 분야 학생의 자기 성찰(Self-Reflections) 내 품질 지표 식별

요약

소프트웨어 공학 교육에서 학생들의 성찰(Reflection) 내용을 자동으로 평가하기 위한 8가지 지표 체계와 분류기를 제안합니다. 미세 조정된 RoBERTa 모델이 기존 LLM보다 정확도와 속도 면에서 우수한 성능을 보임을 입증했습니다.

핵심 포인트

학생의 성찰 내용을 평가하기 위한 8가지 지표 프레임워크 구축
미세 조정된 RoBERTa 모델이 디코더 전용 LLM보다 효율적임을 확인
강사의 업무량을 줄이고 구조화된 피드백을 제공하는 자동화 도구 제안
인간 수준의 일치도를 보이는 자동 분류기 검증

배경(Context): 성찰(Reflection)은 소프트웨어 공학 교육, 특히 학생들이 장기적인 팀 프로젝트를 통해 학습하고 작업 과정 전반에 걸쳐 반복적으로 성찰하는 능력을 개발해야 하는 프로젝트 기반 과정에서 필수적인 기술입니다. 학생들이 성찰을 통해 이득을 얻으려면, 성찰 과정이 가이드되고 개선될 수 있도록 그들이 작성한 성찰 내용을 평가해야 합니다. 그러나 성찰을 가이드하기 위해 작성된 성찰 내용을 수동으로 평가하는 것은 시간이 많이 소요되며, 종종 학생의 개선을 위한 광범위하고 비구체적인 피드백으로 이어지는 경우가 많습니다. 목적(Objective): 본 연구는 성찰적 글쓰기 프레임워크(reflective writing frameworks)를 기반으로 소프트웨어 공학에서의 학생 성찰을 평가하기 위한 8가지 지표 체계를 구축합니다. 나아가, 본 연구는 프레임워크에 따라 성찰을 평가하는 자동 분류기(automated classifier)를 검증하여, 강사의 업무량을 줄이면서도 확장 가능하고 구조화된 피드백을 가능하게 합니다. 방법(Method): 우리는 반복적인 개선 과정을 통해 기존의 성찰 프레임워크를 조정하여 8가지 지표 프레임워크를 생성했습니다. 세 명의 어노테이터(annotator)가 학생의 성찰 텍스트를 라벨링하였으며, 중간에서 신뢰할 수 있는 수준의 평가자 간 일치도(inter-rater agreement)를 확립했습니다. 그 후, 우리는 여러 개의 인코더 전용 트랜스포머(encoder-only transformer) 모델을 학습 및 평가하였고, 이를 제로샷 프롬프팅(zero-shot prompting)을 사용하는 디코더 전용 대규모 언어 모델(decoder-only large language models)과 비교했습니다. 결과(Results): 미세 조정된(fine-tuned) RoBERTa 모델이 가장 강력한 성능을 달성하였으며, 정확도와 속도 모두에서 디코더 전용 모델을 크게 앞질렀습니다. 이 분류기는 대부분의 지표에서 인간 수준의 일치도를 보여주는 동시에 거의 즉각적인 분류를 가능하게 했습니다. 우리는 서로 다른 평가 우선순위에 최적화된 두 가지 모델 변형을 제공합니다. 결론(Conclusions): 우리의 미세 조정된 인코더 전용 모델은 성찰적 글쓰기에 대한 효율적인 자동 평가를 가능하게 합니다. 이 프레임워크와 자동 분류기는 소프트웨어 공학 분야에서 학생의 성찰에 대해 시의적절하고 구조화된 피드백을 제공하는 수단을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

소프트웨어 공학 분야 학생의 자기 성찰(Self-Reflections) 내 품질 지표 식별

요약

핵심 포인트

댓글