헤이 챗, 나를 가르쳐 줄 수 있니? 실제 학습 환경에서의 인간 학습을 위한 소크라테스식 대화 구조화
요약
LLM을 활용한 교육 환경에서 커리큘럼 구성, 소크라테스식 대화, 지식 상태 추론을 분리하여 수행하는 새로운 프레임워크를 제안합니다. 선수 지식 그래프와 PPO 정책을 결합하여 학생의 학습 속도와 효율성을 기존 모델보다 크게 향상시켰습니다.
핵심 포인트
- LLM의 단순 규모 확장만으로는 체계적인 교육 수행에 한계가 있음
- 커리큘럼 구성, 대화 수행, 지식 추론 역할을 분리하여 구조화
- 선수 지식 그래프와 PPO 정책을 활용한 최적의 학습 경로 결정
- 기존 모델 대비 학습 마스터 속도 및 대화 효율성 개선
거대 언어 모델 (LLM)은 현재 일상적인 학습을 위해 널리 사용되고 있지만, 그 기저에 깔린 상호작용은 커리큘럼을 따르기보다는 일반적으로 구조화되지 않은 채팅 형태를 띱니다. 공식적인 온라인 학습 시스템과 달리, 이러한 상호작용에는 학생에 대한 사전 기록이 없으므로, 학생이 이미 무엇을 알고 있는지에 대한 모든 추정은 대화 자체로부터 추론되어야 합니다. 우리는 모델의 규모를 키우는 것만으로는 이러한 격차를 해소할 수 없음을 보여줍니다. 최첨단 (Frontier) 모델 및 교육용으로 튜닝된 LLM들은 장기간의 세션 동안 학생을 지도하도록 요청받았을 때 저조한 성능을 보이는데, 이는 이를 수행하기 위해 세 가지를 동시에 수행해야 하기 때문입니다. 튜터는 커리큘럼을 순차적으로 구성해야 하고, 소크라테스식 대화 (Socratic dialogue)를 수행해야 하며, 해당 대화로부터 학생의 지식 상태를 추론해야 합니다. 우리는 이러한 책임들을 분리할 것을 제안합니다. 학생의 질문이 주어지면, 우리 시스템은 하위 주제가 노드(node)이고 의존 관계가 엣지(edge)인 선수 지식 그래프 (prerequisite knowledge graph)를 구축하며, 튜터링을 다음에 가르칠 노드가 무엇인지, 그리고 다음으로 넘어가기 전에 해당 노드에 몇 번의 대화 턴 (dialogue turns)을 소비할지를 결정하는 것으로 프레임화합니다. 경량화된 PPO 정책이 이러한 순서 결정 (sequencing decision)을 처리하는 동안, LLM은 선택된 노드에서 소크라테스식 교환을 수행하고 학생의 진전 신호를 반환합니다. 별도로 분리된 STEM 및 비-STEM 주제 전반에 걸쳐, 우리의 PPO 결합 튜터는 휴리스틱 베이스라인 (heuristic baselines), 최첨단 범용 모델, 그리고 소크라테스식 대화에 특화된 모델보다 학생이 전체 커리큘럼을 마스터하는 속도와 필요한 턴 수 모두에서 더 뛰어난 성능을 보였습니다. 명시적인 커리큘럼 구조는 기반 모델의 규모를 확장하는 것만으로는 얻을 수 없는 이득을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기