GradeLegal: 독일 법률 사례에 대한 자동 채점

독일 법률 시험 답안을 채점하는 작업은 점점 늘어나는 답안 양과 자격을 갖춘 채점자의 부족으로 인해 피드백이 지연되고 병목 현상이 발생하고 있습니다. 동시에, 독일에서는 국가 고시 성적이 경력 결과에 강력한 영향을 미치기 때문에 이는 매우 중요한 전문가적 과업입니다. 이러한 실무적 중요성에도 불구하고, 기존 문헌에는 법률 시험 채점을 위한 효과적인 방법에 대한 체계적인 연구가 부족합니다. 이러한 공백을 메우기 위해, 우리는 대규모 언어 모델 (LLMs)이 형법 및 공법 분야의 독일 법률 사례 답안에 대한 자동 채점을 지원할 수 있는지 조사하며, 이를 통해 확장 가능한 피드백과 학생들의 자가 테스트를 가능하게 하고자 합니다. 우리는 샘플 답안 및 채점 기준표(grading rubric)와 같이 작업 관련 정보를 점진적으로 추가하는 프롬프팅 전략을 벤치마킹하여, 27개의 폐쇄형(proprietary) 및 오픈 소스 LLMs에 대한 체계적인 평가를 제시합니다. 이차 가중 카파 (Quadratic Weighted Kappa, QWK)를 사용한 결과, 추론 중심의 LLMs는 샘플 답안과 채점 기준표가 주어졌을 때 공법에서는 전문가 채점에 근접(최대 0.91)할 수 있었으나, 형법에서는 0.60을 기록하여 형법의 채점 과업이 더 어렵다는 것을 시사했습니다. 단일 모델 채점을 넘어, 앙상블 (Ensembling)은 최상의 개별 모델보다 일치도를 최대 0.15까지 향상시킬 수 있으며, 더 강력한 폐쇄형 단일 모델의 대안이 될 수 있습니다. 또한, 우리의 연구 결과는 법률 시험의 신뢰할 수 있는 LLM 기반 채점을 위해 효과적인 프롬프트 설계와 모델 선택이 필수적임을 시사합니다.

Insights

GradeLegal: 독일 법률 사례에 대한 자동 채점

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어