본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 10:44

LLM 채점에 미치는 이력과 모델의 영향: 고급 소프트웨어 공학 강의에 대한 연구

요약

대학원 수준의 소프트웨어 공학 과제 채점에 LLM을 활용할 때 발생하는 채점 일관성과 신뢰성을 연구했습니다. Grok과 GPT를 비교 분석한 결과, 모델 간 불일치와 상호작용 이력에 따른 채점 기준 드리프트 현상이 발견되었습니다.

핵심 포인트

  • LLM은 모델 내부 일관성은 높으나 모델 간 채점 불일치가 큼
  • 단순 앙상블 방식으로는 인간 점수와의 정렬 개선이 어려움
  • 지속적인 상호작용 이력이 채점 기준의 드리프트 현상을 유발함
  • 무분별한 LLM 채점은 교육적 불공정성을 초래할 위험이 있음

대학원 수준의 연구 독후감(reading report) 평가는 교육자들에게 상당한 노동 부담을 줍니다. 거대 언어 모델 (LLMs)은 학술적 채점을 자동화하는 데 큰 잠재력을 가지고 있지만, 이 전문적인 작업에 대한 신뢰성, 특히 교육적 공정성의 주요 장애물인 채점 일관성(grading consistency)에 관한 연구는 여전히 부족한 상태입니다. 본 논문은 인간과 정렬된 (human-aligned) LLM 지원 채점 워크플로우를 제안하며, 대학원 고급 소프트웨어 공학 과정의 학생 제출물 180건을 바탕으로 한 사례 연구를 제시합니다. 우리는 두 가지 주류 LLM인 Grok과 GPT를 채점 일관성 및 인간 점수와의 정렬(alignment) 측면에서 평가합니다. 연구 결과, LLM은 모델 내부의 일관성(intra-model consistency)은 뚜렷한 수준을 보이지만, 모델 간의 채점 불일치(inter-model grading inconsistencies)는 상당하다는 것을 발견했습니다. 또한 단순한 앙상블 (ensemble) 접근 방식은 인간 평가와의 정렬을 개선할 수 없었습니다. 결정적으로, 지속적인 상호작용 이력(interaction history)은 모델의 채점 기준이 인간 전문가의 점수로부터 체계적으로 벗어나게 만드는 드리프트 (drift) 현상을 유발합니다. 우리의 연구 결과는 대학원 교육에서 교육자의 채점 업무량을 줄이는 데 있어 LLM의 잠재력을 입증하는 동시에, 무분별한 LLM 채점이 체계적인 불공정성을 초래할 수 있음을 강조하며, 이러한 격차를 완화하기 위해서는 특정한 운영 관행이 필요함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0