arXiv논문2026. 05. 27. 12:19

MAIGO: 이력 정제된 온폴리시 자기 증류(On-Policy Self-Distillation)를 통한 대화 중 정보

요약

대화가 길어질수록 발생하는 정보 손실(LiC) 현상의 원인을 모델의 자기 오염(Self-contamination)으로 규명하고, 이를 해결하기 위한 온폴리시 자기 증류 방법론인 MAIGO를 제안합니다.

핵심 포인트

대화 중 정보 손실(LiC)의 주요 원인을 자기 오염으로 분석
이력이 정제된 참조를 사용하는 MAIGO 방법론 제안
Qwen2.5-7B-Instruct 모델의 SHARDED 정확도 대폭 향상
추가적인 검증기나 추론 시 스캐폴딩 없이 성능 개선 가능

대규모 언어 모델(Large language models)은 완전히 명시된 프롬프트(Prompt)로부터 과업을 자주 해결하지만, 동일한 요구사항이 여러 턴(Turn)에 걸쳐 전개될 때는 성능이 저하되는데, 이를 대화 중 정보 손실(Lost-in-Conversation, LiC) 격차라고 합니다. 우리는 이러한 성능 저하의 일부 원인을 자기 오염(Self-contamination)에서 찾았습니다. 즉, 중간 단계의 어시스턴트(Assistant) 답변이 이후의 컨텍스트(Context)에 포함되면서 초기 단계의 편차를 계속해서 전달하게 됩니다. 이러한 메커니즘에 착안하여, 우리는 모델 자신의 정책(Policy)으로부터 이력이 정제된 참조(History-cleaned references)를 사용하여 이 오염을 줄이는 온폴리시 자기 증류(On-policy self-distillation) 방법인 MAIGO를 제안합니다. 중간 턴(Middle turns)의 경우, MAIGO는 사용자에게 보이는 샤딩된 접두사(Sharded prefix)는 유지하면서 이전의 어시스턴트 답변을 제거합니다. 답변 턴(Answer turns)의 경우, 완료된 사용자 측 대화에 조건화된 쌍을 이룬 전체 뷰 참조(Paired full-view references)로부터 증류(Distill)합니다. 신뢰도 가중치(Reliability weight)는 정제된 참조와 일치하지 않는 중간 턴 샘플의 비중을 낮춥니다. MAIGO는 검증기 보상(Verifier rewards), 상태 레이블(State labels), 또는 추론 시 스캐폴딩(Inference-time scaffolding)을 필요로 하지 않습니다. 결정론적 검증기(Deterministic verifiers)를 사용하는 LiC 쌍 뷰 프로토콜(LiC paired-view protocol) 하에서, MAIGO는 Qwen2.5-7B-Instruct의 SHARDED 정확도를 52.8에서 66.1로, SHARDED/FULL 비율을 66.5%에서 84.1%로 향상시키는 동시에 FULL 정확도는 2.3포인트 이내로 유지했습니다. 이러한 결과는 자기 오염(Self-contamination)이 LiC 격차의 학습 가능한 구성 요소임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

MAIGO: 이력 정제된 온폴리시 자기 증류(On-Policy Self-Distillation)를 통한 대화 중 정보

요약

핵심 포인트

댓글