LLM은 서로 다른 숙련도를 가진 학생들을 구분하는 요소를 측정하는 데 어려움을 겪는다: 독해 평가에서의 문항 변별도에 관한 연구
요약
LLM이 독해 평가에서 학생의 숙련도를 구분하는 '문항 변별도'를 얼마나 정확히 측정할 수 있는지 연구했습니다. 42개의 모델을 평가한 결과, 직접 예측과 응답 기반 방식 모두 인간의 변별도와 낮은 상관관계를 보여 LLM 기반 심리측정의 한계를 드러냈습니다.
핵심 포인트
- LLM의 문항 변별도 직접 예측 성능은 매우 낮음 (Spearman 0.152)
- 응답 기반 CTT 보정 방식이 직접 예측보다 상대적으로 강력함
- 합성 응답자 풀 활용 시 상관계수가 0.241까지 상승함
- LLM은 문항 변별도 신호를 일부 포함하나 신뢰성 있는 포착은 미흡함
문항 변별도 (Item discrimination)는 교육 평가의 근본적인 심리측정적 특성으로, 특정 문항이 높은 숙련도를 가진 학생과 낮은 숙련도를 가진 학생을 의미 있게 구분할 수 있는지를 측정합니다. 기존의 다양한 연구들이 대규모 언어 모델 (LLMs)이 문항 난이도를 추정할 수 있는지 탐구해 왔으나, 이들이 문항 변별도를 포착할 수 있는지 여부는 여전히 불분명합니다. 본 연구에서는 두 가지 상호 보완적인 접근 방식을 사용하여 제로샷 (zero-shot) 설정에서 42개의 폐쇄형 (proprietary) 및 오픈 웨이트 (open-weight) LLM을 평가합니다. 첫 번째는 모델이 문항의 내용으로부터 문항의 변별도 값을 명시적으로 추정하는 직접 변별도 예측 (direct discrimination prediction) 방식이며, 두 번째는 LLM의 답변을 합성된 학생 응답으로 취급하여 변별도 점수를 계산하는 응답 기반 고전 검사 이론 (Classical Test Theory, CTT) 보정 (calibration) 방식입니다. 연구 결과, 직접 예측은 인간이 보정한 변별도와 약한 일치성을 보였습니다. 가장 성능이 좋은 모델조차 스피어만 상관계수 (Spearman correlation) 0.152에 그쳤습니다. 응답 기반 CTT 보정은 더 강력하지만 여전히 제한적인 신호를 제공하였으며, 모든 페르소나를 포함한 합성 응답자 풀 (all-persona synthetic respondent pool)의 경우 스피어만 상관계수 0.241에 도달했습니다. 이러한 결과는 문항 변별도가 LLM 기반 심리측정 평가의 미해결 과제임을 강조합니다. 현재의 LLM은 무작위가 아닌 변별도 관련 신호를 포함하고 있지만, 평가 문항이 인간 학생을 어떻게 구분하는지를 아직 신뢰성 있게 포착하지는 못하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기