arXiv논문2026. 05. 29. 12:55

동일한 증거, 다른 답변: 멀티턴 언어 모델을 위한 정준 문맥 온폴리시 증류 (Canonical-Context On-Policy

요약

멀티턴 대화 시 정보가 점진적으로 공개될 때 발생하는 모델의 성능 저하 문제를 해결하기 위한 CCOPD 기법을 제안합니다. 동일한 정보를 제공하더라도 대화 방식에 따라 답변이 달라지는 '자기 고정 드리프트' 현상을 완화하는 데 집중합니다.

핵심 포인트

멀티턴 대화 시 발생하는 자기 고정 드리프트 현상 규명
CCOPD를 통한 정준 문맥과 멀티턴 궤적 간의 정렬 학습
RAW-SHARDED 성능을 기존 모델 대비 평균 32% 향상
사용자 증거에 대한 근거 제시(Grounding) 능력 강화

대규모 언어 모델 (LLMs)은 모든 지시 사항이 단일 프롬프트 (Prompt)에 주어졌을 때는 과업을 잘 해결하지만, 동일한 정보가 여러 턴 (Turns)에 걸쳐 점진적으로 공개될 때는 실패하는 경우가 많습니다. 깨끗한 FULL 프롬프트와 RAW-SHARDED 대화가 동일한 완전한 사용자 증거 (User evidence)를 포함하고 있다면, 모델은 여전히 동일한 답변에 도달해야 합니다. 우리는 이러한 격차의 주요 원인이 자기 고정 드리프트 (Self-anchored drift)라고 주장합니다. 즉, 부분적인 정보 하에서 생성된 응답이 근거 없는 가정을 도입하고, 그 가정이 나중에 최종 답변을 왜곡한다는 것입니다. 이 효과를 줄이기 위해, 우리는 정준 문맥 온폴리시 증류 (Canonical-Context On-Policy Distillation, CCOPD)를 제안합니다. 학습 과정에서 동일한 베이스 모델 (Base model)이 두 가지 역할을 수행합니다: 깨끗한 FULL 프롬프트를 조건으로 하는 동결된 교사 (Frozen teacher) 모델과, 멀티턴 대화를 통해 동일한 증거를 점진적으로 전달받는 학습 가능한 학생 (Trainable student) 모델입니다. CCOPD는 학생 모델의 자체 궤적 (Trajectories) 상의 행동을 교사 모델의 정준 전체 문맥 (Canonical full-context) 행동과 정렬시킵니다. 수학 문제 대화 데이터로만 학습된 CCOPD는 수학 및 5개의 제로샷 (Zero-shot) 도메인 외 과업군 전체에서 기존 베이스 모델 대비 RAW-SHARDED 성능을 평균 32% 상대적으로 향상시키는 동시에, 전체 문맥 (Full-context) 성능은 대부분 유지합니다. 추가 분석에 따르면, CCOPD는 사용자 증거에 대한 근거 제시 (Grounding) 능력을 강화하고 이전 어시스턴트 턴 (Assistant turns)으로부터의 오염 (Contamination)에 대한 민감도를 줄여주는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

동일한 증거, 다른 답변: 멀티턴 언어 모델을 위한 정준 문맥 온폴리시 증류 (Canonical-Context On-Policy

요약

핵심 포인트

댓글