arXiv논문2026. 06. 05. 14:05

EDIT: 규칙 준수형 LLM 채점을 위한 증거 진단 기반 개입 학습

요약

LLM이 루브릭(채점 기준)을 충실히 따르도록 돕는 2단계 프레임워크 EDIT를 제안합니다. 모델 내부 신호를 통해 잘못된 추론 단계를 진단하고, 신념 유도형 보상을 통해 채점 성능을 강화합니다.

핵심 포인트

증거 진단 기반의 2단계 프레임워크 EDIT 제안
내부 신호를 활용한 국소적 추론 단계 수정(EDIT-SFT)
신념 유도형 보상 형성을 통한 채점기 보정(EDIT-RL)
기존 SFT 및 RL 베이스라인 대비 우수한 성능 입증

신뢰할 수 있는 루브릭 (rubric) 채점은 단순히 정확한 점수를 예측하는 것 이상의 것을 요구합니다. 각 판단은 채점 기준 (mark scheme) 및 학생 답변에서 추출한 증거에 근거해야 합니다. 주로 수학적 추론과 같은 독립적인 추론 작업을 위해 설계된 기존의 신용 할당 (credit-assignment) 및 개입 (intervention) 방법들은, 채점 추론의 어느 부분이 잘못되었는지 또는 추론 과정에서 최종 점수에 대한 모델의 신념 (belief)이 어떻게 변하는지를 식별하지 못하기 때문에 이러한 환경에서 어려움을 겪습니다. 우리는 더욱 루브릭을 충실히 따르는 LLM 채점기를 학습시키기 위한 2단계 프레임워크인 증거 진단 기반 개입 학습 (Evidence-Diagnosed Intervention Training, EDIT)을 제안합니다. 첫째, EDIT-SFT는 모델 내부 신호인 최종 점수에 대한 사후 신념 (posterior belief) 및 입력 근거 점수 (input-grounding scores)를 사용하여 문제가 되는 추론 단계를 찾아냅니다. 그런 다음 루브릭 체크리스트의 도움을 받아 이러한 국소적 단계들만을 수정합니다. 둘째, EDIT-RL은 신념 유도형 보상 형성 (belief-guided reward shaping)을 통해 채점기를 보정하며, 유익한 탐색 (exploration)은 허용하면서도 해로운 신념 표류 (belief drifts)가 크게 발생하는 경우에는 페널티를 부여합니다. 두 가지 실제 다과목 채점 벤치마크에 대한 실험 결과, EDIT는 인도메인 (in-domain) 및 아웃도메인 (out-of-domain) 분할 모두에서 강력한 지도 미세 조정 (supervised fine-tuning) 및 강화 학습 (reinforcement learning) 베이스라인을 일관되게 능가함을 입증하였으며, 절제 연구 (ablation studies)를 통해 내부 상태 진단 (internal-state diagnostics)이 이러한 성능 향상을 주도함을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EDIT: 규칙 준수형 LLM 채점을 위한 증거 진단 기반 개입 학습

요약

핵심 포인트

댓글