본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:57

GradeLegal: 독일 법률 사례에 대한 자동 채점

요약

독일 법률 시험 채점의 병목 현상을 해결하기 위해 LLM을 활용한 자동 채점 가능성을 연구한 논문입니다. 형법과 공법 분야의 답안을 대상으로 다양한 프롬프팅 전략과 27개의 모델을 벤치마킹하여 성능을 평가했습니다.

핵심 포인트

  • 추론 중심의 LLM은 공법 분야에서 전문가 채점과 매우 유사한 성능(최대 0.91 QWK)을 보였습니다.
  • 형법 채점 과업은 공법에 비해 LLM에게 더 높은 난이도를 요구하는 것으로 나타났습니다.
  • 앙상블(Ensembling) 기법을 사용하면 단일 모델보다 일치도를 최대 0.15까지 향상시킬 수 있습니다.
  • 효과적인 법률 채점을 위해서는 정교한 프롬프트 설계와 적절한 모델 선택이 필수적입니다.

독일 법률 시험 답안을 채점하는 작업은 점점 늘어나는 답안 양과 자격을 갖춘 채점자의 부족으로 인해 피드백이 지연되고 병목 현상이 발생하고 있습니다. 동시에, 독일에서는 국가 고시 성적이 경력 결과에 강력한 영향을 미치기 때문에 이는 매우 중요한 전문가적 과업입니다. 이러한 실무적 중요성에도 불구하고, 기존 문헌에는 법률 시험 채점을 위한 효과적인 방법에 대한 체계적인 연구가 부족합니다. 이러한 공백을 메우기 위해, 우리는 대규모 언어 모델 (LLMs)이 형법 및 공법 분야의 독일 법률 사례 답안에 대한 자동 채점을 지원할 수 있는지 조사하며, 이를 통해 확장 가능한 피드백과 학생들의 자가 테스트를 가능하게 하고자 합니다. 우리는 샘플 답안 및 채점 기준표(grading rubric)와 같이 작업 관련 정보를 점진적으로 추가하는 프롬프팅 전략을 벤치마킹하여, 27개의 폐쇄형(proprietary) 및 오픈 소스 LLMs에 대한 체계적인 평가를 제시합니다. 이차 가중 카파 (Quadratic Weighted Kappa, QWK)를 사용한 결과, 추론 중심의 LLMs는 샘플 답안과 채점 기준표가 주어졌을 때 공법에서는 전문가 채점에 근접(최대 0.91)할 수 있었으나, 형법에서는 0.60을 기록하여 형법의 채점 과업이 더 어렵다는 것을 시사했습니다. 단일 모델 채점을 넘어, 앙상블 (Ensembling)은 최상의 개별 모델보다 일치도를 최대 0.15까지 향상시킬 수 있으며, 더 강력한 폐쇄형 단일 모델의 대안이 될 수 있습니다. 또한, 우리의 연구 결과는 법률 시험의 신뢰할 수 있는 LLM 기반 채점을 위해 효과적인 프롬프트 설계와 모델 선택이 필수적임을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0