arXiv논문2026. 06. 09. 10:44

LLM 채점에 미치는 이력과 모델의 영향: 고급 소프트웨어 공학 강의에 대한 연구

요약

대학원 수준의 소프트웨어 공학 과제 채점에 LLM을 활용할 때 발생하는 채점 일관성과 신뢰성을 연구했습니다. Grok과 GPT를 비교 분석한 결과, 모델 간 불일치와 상호작용 이력에 따른 채점 기준 드리프트 현상이 발견되었습니다.

핵심 포인트

LLM은 모델 내부 일관성은 높으나 모델 간 채점 불일치가 큼
단순 앙상블 방식으로는 인간 점수와의 정렬 개선이 어려움
지속적인 상호작용 이력이 채점 기준의 드리프트 현상을 유발함
무분별한 LLM 채점은 교육적 불공정성을 초래할 위험이 있음

대학원 수준의 연구 독후감(reading report) 평가는 교육자들에게 상당한 노동 부담을 줍니다. 거대 언어 모델 (LLMs)은 학술적 채점을 자동화하는 데 큰 잠재력을 가지고 있지만, 이 전문적인 작업에 대한 신뢰성, 특히 교육적 공정성의 주요 장애물인 채점 일관성(grading consistency)에 관한 연구는 여전히 부족한 상태입니다. 본 논문은 인간과 정렬된 (human-aligned) LLM 지원 채점 워크플로우를 제안하며, 대학원 고급 소프트웨어 공학 과정의 학생 제출물 180건을 바탕으로 한 사례 연구를 제시합니다. 우리는 두 가지 주류 LLM인 Grok과 GPT를 채점 일관성 및 인간 점수와의 정렬(alignment) 측면에서 평가합니다. 연구 결과, LLM은 모델 내부의 일관성(intra-model consistency)은 뚜렷한 수준을 보이지만, 모델 간의 채점 불일치(inter-model grading inconsistencies)는 상당하다는 것을 발견했습니다. 또한 단순한 앙상블 (ensemble) 접근 방식은 인간 평가와의 정렬을 개선할 수 없었습니다. 결정적으로, 지속적인 상호작용 이력(interaction history)은 모델의 채점 기준이 인간 전문가의 점수로부터 체계적으로 벗어나게 만드는 드리프트 (drift) 현상을 유발합니다. 우리의 연구 결과는 대학원 교육에서 교육자의 채점 업무량을 줄이는 데 있어 LLM의 잠재력을 입증하는 동시에, 무분별한 LLM 채점이 체계적인 불공정성을 초래할 수 있음을 강조하며, 이러한 격차를 완화하기 위해서는 특정한 운영 관행이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 채점에 미치는 이력과 모델의 영향: 고급 소프트웨어 공학 강의에 대한 연구

요약

핵심 포인트

댓글