본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:03

경량 언어 모델을 활용한 저자원 언어 Bangla의 서면 답변 의미론적 채점

요약

본 논문은 저자원 언어인 Bangla의 서면 답변 채점 문제를 해결하기 위해 의미적 정확성을 중시하는 평가 시스템을 제안합니다. 경량 LLM(Qwen3-8B)을 미세 조정하여 질문, 참고 답변, 학생 답변을 모두 활용해 수치 점수와 맥락 기반 피드백을 생성하며, 높은 일관성과 인간 점수와의 강력한 일치도를 입증했습니다.

핵심 포인트

  • 저자원 언어(Bangla)의 자동 채점 시스템 제시
  • 표면 형태보다 의미적 정확성 우선 평가 방식 도입
  • QLoRA로 미세 조정된 경량 LLM 활용 및 성능 검증
  • 합성 데이터셋 구축을 통한 통제된 훈련 환경 마련

Bangla는 세계에서 가장 널리 사용되는 언어 중 하나이지만, 교육 NLP 연구 분야에서는 여전히 소외되어 있습니다. 많은 외딴 및 농촌 지역에서 자격을 갖춘 교사에게 접근하기 어려워, 서면 답변은 그 결과 대부분 수작업으로 채점되며 이는 시의적절하고 일관된 피드백을 제한합니다. 의미론적으로 올바른 응답이라도 표면 형태(surface form)에서 상당히 다를 수 있기 때문에 자동 평가가 어렵습니다. 본 논문에서는 저자원 교육 환경에 맞춰 설계되었으며, 어휘 중복(lexical overlap)보다 의미적 정확성(semantic correctness)을 우선시하는 이중 언어(Bangla-English) 평가 시스템을 제시합니다. 저희의 접근 방식은 경량 언어 모델을 미세 조정하여 질문, 참고 답변, 학생 답변을 모두 사용하여 각 응답을 채점하고, 교실 배포에 적합한 수치 점수와 간결하고 맥락 기반의 피드백을 생성합니다. 또한 통제된 훈련과 평가를 가능하게 하는 합성 이중 언어 데이터셋도 구축했습니다. 독점 및 오픈 소스 LLM 전반에 걸쳐 통합 프로토콜 하에 평가했을 때, 저희가 QLoRA로 미세 조정한 Qwen3-8B 모델이 합성 평가에서 가장 누출 방지력이 높은 피드백(RoRa = 0.819)을 생성하고, 전용 인간 연구에서는 인간 점수와 가장 강력한 일치도(rho = 0.936, MAE = 0.725)를 보여 일관된 개선을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0