Controllable Spoken Dialogue Generation: An LLM-Driven Grading System for K-12 Non-Native English Learners
요약
본 논문은 대규모 언어 모델(LLMs)이 비모국어 환경의 중·고등 영어 학습자들의 교육적 요구를 충족시키지 못하는 '숙련도 불일치' 문제를 해결하기 위한 프레임워크를 제안합니다. 이 프레임워크는 중국 국가 커리큘럼(CSE)을 기반으로 하며, 학습자의 능력에 맞춰 LLM 출력을 정밀하게 조정할 수 있도록 설계되었습니다. 핵심 기술로는 대화 다양성을 유지하면서 품질을 최적화하는 다중 턴 GRPO 기반의 DDPO 알고리즘이 사용되어, 교육적 가치와 자연스러움을 동시에 향상시킵니다.
핵심 포인트
- LLMs를 활용한 비모국어 학습자의 '숙련도 불일치' 문제를 해결하는 프레임워크 제시.
- 중국 국가 커리큘럼(CSE)을 기반으로 하며, 등급별 어휘 목록과 다중 턴 코퍼스를 통해 정밀한 난이도 제어가 가능함.
- 핵심 기술로 DDPO (Diversity Driven Policy Optimization) 알고리즘을 사용하여 대화 품질 최적화 및 다양성 확보.
- 제안된 플랫폼은 오픈소스로 공개되어 다른 교육 표준에도 쉽게 확장 적용할 수 있음.
대규모 언어 모델 (LLMs) 은 비모국어 환경에서 중·고등 영어 학습자의 교육적 요구를 충족시키지 못하는 경우가 많습니다. 이는 숙련도 불일치 (proficiency mismatch) 로 인해 발생합니다. 이 광범위한 과제를 해결하기 위해, 우리는 중국 국가 커리큘럼 (CSE) 을 대표 사례로 삼아 학습자의 능력에 LLM 출력을 적응시키는 숙련도 정렬 프레임워크를 소개합니다. 우리의 프레임워크는 종합적인 새로운 자원 세트 (등급별 어휘 목록과 다중 턴 대화 코퍼스) 를 지원하여 어휘 복잡성에 대한 정밀한 제어를 가능하게 합니다. 우리의 핵심 기술적 기여는 대화 다양성을 유지하면서 대화 품질을 전체적으로 최적화하도록 설계된 다중 턴 GRPO 기반 접근법인 extbf{DDPO} 알고리즘 (Diversity Driven Policy Optimization) 입니다. 이 방법은 기존 접근법보다 현저히 뛰어난 성과를 거두어, 낮은 어휘 외율 (out-of-vocabulary rates) 과 높은 다양성을 달성하면서도 대화의 자연스러움과 교육적 가치를 향상시킵니다. CSE 를 기반으로 하고 있지만, 우리의 프레임워크는 유연하게 설계되어 다른 교육 표준에도 쉽게 적용할 수 있습니다. 우리의 모델, 데이터, 코드는 모두 오픈소스화되어 비몰입 환경에서 중·고등 학습자가 직면한 고유한 과제를 효과적으로 해결하는 개인화된 영어 구술 연습을 위한 확장 가능한 플랫폼을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기