교육 분야에서의 LLM-as-Judge: 커리큘럼에 기반한 채점 파이프라인
요약
교육 분야의 고부담 시험 대비를 위해 커리큘럼 산출물에 기반한 LLM-as-Judge 채점 파이프라인을 제안합니다. 이 시스템은 공인된 가이드라인과 루브릭을 활용하여 LLM의 판단을 체계적으로 지원하며, 인간 튜터 수준의 일관성과 투명성을 제공합니다.
핵심 포인트
- 커리큘럼 산출물을 활용한 체계적인 LLM 채점 파이프라인 설계
- 문항별 루브릭 및 채점 기준 도출을 위한 단계별 워크플로우 채택
- 인간 튜터와 유사한 성능 및 공인 표준에 대한 높은 추적성 입증
- 온라인 학습 플랫폼 통합을 통한 실제 운영 데이터 확보
생성형 AI (Generative AI)와 대규모 언어 모델 (LLMs)은 문제 생성 및 자동 평가 분야에 점점 더 많이 적용되고 있습니다. 그러나 고부담 시험 (high-stakes exams) 준비를 위해 LLM을 배포하는 것은 단순한 프롬프트 엔지니어링 (prompt engineering) 이상의 것을 요구합니다. 즉, 모델의 출력을 교육 당국이 발행한 공인된 커리큘럼 산출물 (curriculum artefacts) 및 채점 가이드라인 (marking guidelines)에 체계적으로 근거하도록 하는 소프트웨어 파이프라인이 필요합니다. 본 논문은 대학 입시를 위한 시험 준비를 지원하기 위해 산업 파트너와 공동 개발한, 문항 수준 채점을 위한 커리큘럼 기반의 설정 가능한 LLM-as-Judge 파이프라인을 제시합니다. 이 파이프라인은 질문의 관련 주제, 하위 주제 및 인지적 요구 (cognitive demand)를 식별하고, LLM의 판단을 지원하기 위해 검증 가능하고 공인된 컨텍스트를 구성합니다. 커리큘럼 의도는 규정된 동사 및 결과, 성취 수준 기술자 (performance band descriptors), 용어집 정의, 채점 가이드라인 원칙을 포함한 구체적인 실라버스 산출물 (syllabus artefacts)을 통해 실행됩니다. 단계별 LLM 워크플로우 (workflow)가 채택되어, 먼저 수행에 대한 구조화된 기대치를 포착하는 문항별 루브릭 (rubrics)을 생성한 다음, 학생 응답에 점수를 할당하는 데 사용되는 채점 기준 (marking criteria)을 도출하고 평가합니다. 이러한 설계는 일관성, 투명성 및 공식 채점 관행과의 정렬 (alignment)을 개선합니다. 예비 평가 결과, 제안된 LLM-as-Judge 파이프라인은 인간 튜터와 비교할 만한 채점 결과를 제공하는 동시에, 공인된 커리큘럼 산출물 및 채점 표준에 더 추적 가능한 근거를 생성함을 보여줍니다. 또한 이 파이프라인은 온라인 학습 플랫폼에 통합되었으며, 초기 배포 데이터는 운영 사용 및 수동 오버라이드 (manual overrides)에 대한 초기 통찰력을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기