arXiv논문2026. 05. 20. 03:25

Large Language Models를 전문가로 활용한 문항 난이도 추정

요약

본 연구는 응답 데이터가 없는 신규 문항의 난이도를 추정하기 위해 LLM을 전문가로 활용하는 방안을 탐구합니다. 세 가지 기성 LLM을 대상으로 판단 형식, 결정 유형, 프롬프팅 전략에 따른 성능을 분석한 결과, LLM 기반 추정치가 실제 경험적 난이도와 중간에서 강한 양의 상관관계를 보임을 확인했습니다.

핵심 포인트

LLM은 응답 데이터가 없는 초기 문항 보정(item calibration)을 위한 유망한 도구로 활용될 수 있습니다.
쌍체 비교(Pairwise comparison) 방식이 절대적 판단(absolute judgement)보다 일관되게 우수한 성능을 보였습니다.
토큰 확률을 통합하고 퓨샷(Few-shot) 예시를 제공할 경우, 절대적 판단 방식의 정확도도 크게 향상됩니다.
단순 산술 과제의 경우, 특정 LLM 구성은 인간 전문가의 정확도 상한선에 근접하는 성능을 나타냈습니다.

문항 난이도 (item difficulty)의 정확한 추정은 타당한 평가와 효과적인 적응형 학습 (adaptive learning)을 위해 필수적입니다. 그러나 새로 생성된 과제의 경우, 일반적으로 응답 데이터 (response data)를 사용할 수 없습니다. 사전 테스트 (Pretesting)와 전문가 판단 (expert judgement)은 비용이 많이 들고 시간이 오래 걸릴 수 있으며, 머신러닝 (machine learning) 방법은 종종 대규모의 라벨링된 학습 데이터셋 (labelled training datasets)을 필요로 합니다. 최근 연구들은 대규모 언어 모델 (Large Language Models, LLMs)이 도움이 될 수 있음을 시사합니다. 하지만 난이도 추정을 위해 전문가를 모사하는 데 사용되는 유도 절차 (elicitation procedures) 및 프롬프트 구성 (prompt configurations)에 대한 증거는 제한적입니다. 본 연구는 응답 데이터에 접근할 수 없는 상태에서 새로 생성된 문항의 난이도 평가자로서 세 가지 기성 LLM (off-the-shelf LLMs)을 평가함으로써 이러한 공백을 메웁니다. 온라인 학습 시스템의 문항 은행 (item bank)을 사용하여, 본 연구는 초등 수학의 6개 영역을 조사하였으며, 경험적 난이도 추정치 (empirical difficulty estimates)를 경험적 참조값 (empirical reference)으로 취급하였습니다. 본 연구는 세 가지 요인인 판단 형식 (judgement format: 절대적 vs 쌍체 비교), 결정 유형 (decision type: 어려운 결정 vs 토큰 확률 기반 추정), 그리고 프롬프팅 전략 (prompting strategy: 제로샷 vs 퓨샷)을 교차하는 완전 요인 설계 (full factorial design)를 사용하였습니다. LLM 기반 난이도 추정치는 Spearman 순위 상관관계 (Spearman rank correlations)를 사용하여 경험적 난이도와 비교되었습니다. 모든 영역에 걸쳐, LLM 기반 추정치는 경험적 문항 난이도와 중간에서 강한 양의 상관관계를 보였습니다. 더 단순한 산술 과제의 경우, 일부 구성은 이전 연구에서 인간 전문가에 대해 보고된 정확도 범위의 상한선에 근접했습니다. 추가적인 개선이 없는 경우, 쌍체 비교 (Pairwise comparison)가 절대적 판단 (absolute judgement)보다 일관되게 우수한 성능을 보였습니다. 그러나 토큰 수준의 확률 (token-level probabilities)이 통합되고 경험적 난이도가 알려진 문항의 예시가 제공되었을 때, 절대적 판단 구성 역시 중간에서 높은 수준의 일치도를 보여주었습니다. 본 연구는 LLM을 초기 문항 보정 (item calibration)을 위한 유망한 도구로 자리매김하며, 효과적인 워크플로 구성 (workflow configuration)에 대한 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Large Language Models를 전문가로 활용한 문항 난이도 추정

요약

핵심 포인트

댓글