arXiv논문2026. 06. 15. 08:03

경량 언어 모델을 활용한 저자원 언어 Bangla의 서면 답변 의미론적 채점

요약

본 논문은 저자원 언어인 Bangla의 서면 답변 채점 문제를 해결하기 위해 의미적 정확성을 중시하는 평가 시스템을 제안합니다. 경량 LLM(Qwen3-8B)을 미세 조정하여 질문, 참고 답변, 학생 답변을 모두 활용해 수치 점수와 맥락 기반 피드백을 생성하며, 높은 일관성과 인간 점수와의 강력한 일치도를 입증했습니다.

핵심 포인트

저자원 언어(Bangla)의 자동 채점 시스템 제시
표면 형태보다 의미적 정확성 우선 평가 방식 도입
QLoRA로 미세 조정된 경량 LLM 활용 및 성능 검증
합성 데이터셋 구축을 통한 통제된 훈련 환경 마련

Bangla는 세계에서 가장 널리 사용되는 언어 중 하나이지만, 교육 NLP 연구 분야에서는 여전히 소외되어 있습니다. 많은 외딴 및 농촌 지역에서 자격을 갖춘 교사에게 접근하기 어려워, 서면 답변은 그 결과 대부분 수작업으로 채점되며 이는 시의적절하고 일관된 피드백을 제한합니다. 의미론적으로 올바른 응답이라도 표면 형태(surface form)에서 상당히 다를 수 있기 때문에 자동 평가가 어렵습니다. 본 논문에서는 저자원 교육 환경에 맞춰 설계되었으며, 어휘 중복(lexical overlap)보다 의미적 정확성(semantic correctness)을 우선시하는 이중 언어(Bangla-English) 평가 시스템을 제시합니다. 저희의 접근 방식은 경량 언어 모델을 미세 조정하여 질문, 참고 답변, 학생 답변을 모두 사용하여 각 응답을 채점하고, 교실 배포에 적합한 수치 점수와 간결하고 맥락 기반의 피드백을 생성합니다. 또한 통제된 훈련과 평가를 가능하게 하는 합성 이중 언어 데이터셋도 구축했습니다. 독점 및 오픈 소스 LLM 전반에 걸쳐 통합 프로토콜 하에 평가했을 때, 저희가 QLoRA로 미세 조정한 Qwen3-8B 모델이 합성 평가에서 가장 누출 방지력이 높은 피드백(RoRa = 0.819)을 생성하고, 전용 인간 연구에서는 인간 점수와 가장 강력한 일치도(rho = 0.936, MAE = 0.725)를 보여 일관된 개선을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

경량 언어 모델을 활용한 저자원 언어 Bangla의 서면 답변 의미론적 채점

요약

핵심 포인트

댓글