arXiv논문2026. 04. 27. 19:10

Controllable Spoken Dialogue Generation: An LLM-Driven Grading System for K-12 Non-Native English Learners

요약

본 논문은 대규모 언어 모델(LLMs)이 비모국어 환경의 중·고등 영어 학습자들의 교육적 요구를 충족시키지 못하는 '숙련도 불일치' 문제를 해결하기 위한 프레임워크를 제안합니다. 이 프레임워크는 중국 국가 커리큘럼(CSE)을 기반으로 하며, 학습자의 능력에 맞춰 LLM 출력을 정밀하게 조정할 수 있도록 설계되었습니다. 핵심 기술로는 대화 다양성을 유지하면서 품질을 최적화하는 다중 턴 GRPO 기반의 DDPO 알고리즘이 사용되어, 교육적 가치와 자연스러움을 동시에 향상시킵니다.

핵심 포인트

LLMs를 활용한 비모국어 학습자의 '숙련도 불일치' 문제를 해결하는 프레임워크 제시.
중국 국가 커리큘럼(CSE)을 기반으로 하며, 등급별 어휘 목록과 다중 턴 코퍼스를 통해 정밀한 난이도 제어가 가능함.
핵심 기술로 DDPO (Diversity Driven Policy Optimization) 알고리즘을 사용하여 대화 품질 최적화 및 다양성 확보.
제안된 플랫폼은 오픈소스로 공개되어 다른 교육 표준에도 쉽게 확장 적용할 수 있음.

대규모 언어 모델 (LLMs) 은 비모국어 환경에서 중·고등 영어 학습자의 교육적 요구를 충족시키지 못하는 경우가 많습니다. 이는 숙련도 불일치 (proficiency mismatch) 로 인해 발생합니다. 이 광범위한 과제를 해결하기 위해, 우리는 중국 국가 커리큘럼 (CSE) 을 대표 사례로 삼아 학습자의 능력에 LLM 출력을 적응시키는 숙련도 정렬 프레임워크를 소개합니다. 우리의 프레임워크는 종합적인 새로운 자원 세트 (등급별 어휘 목록과 다중 턴 대화 코퍼스) 를 지원하여 어휘 복잡성에 대한 정밀한 제어를 가능하게 합니다. 우리의 핵심 기술적 기여는 대화 다양성을 유지하면서 대화 품질을 전체적으로 최적화하도록 설계된 다중 턴 GRPO 기반 접근법인 extbf{DDPO} 알고리즘 (Diversity Driven Policy Optimization) 입니다. 이 방법은 기존 접근법보다 현저히 뛰어난 성과를 거두어, 낮은 어휘 외율 (out-of-vocabulary rates) 과 높은 다양성을 달성하면서도 대화의 자연스러움과 교육적 가치를 향상시킵니다. CSE 를 기반으로 하고 있지만, 우리의 프레임워크는 유연하게 설계되어 다른 교육 표준에도 쉽게 적용할 수 있습니다. 우리의 모델, 데이터, 코드는 모두 오픈소스화되어 비몰입 환경에서 중·고등 학습자가 직면한 고유한 과제를 효과적으로 해결하는 개인화된 영어 구술 연습을 위한 확장 가능한 플랫폼을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Controllable Spoken Dialogue Generation: An LLM-Driven Grading System for K-12 Non-Native English Learners

요약

핵심 포인트

댓글