2단계 증류(Two-Phase Distillation)를 통한 멀티태스크 에이전트 LLM 구축
요약
멀티태스크 에이전트 LLM 구축을 위해 오프-폴리시 증류와 온-폴리시 정제를 결합한 2단계 증류(Two-Phase Distillation) 방식을 제안합니다. 기존 방식의 모드 커버링 문제로 인한 성능 저하를 해결하여 개별 작업 전문가 수준의 성능을 달성했습니다.
핵심 포인트
- 오프-폴리시 증류의 모드 커버링 특성으로 인한 성능 저하 분석
- 온-폴리시 정제를 통한 모델 성능 최적화 방법론 제안
- 대화형 에이전트 및 텍스트 게임 환경에서의 성능 검증
- 단일 작업 전문가 수준의 멀티태스크 모델 구축 가능성 확인
인공 일반 지능 (AGI)을 향한 핵심 단계는 여러 작업을 수행할 수 있는 모델을 훈련하는 것입니다. 본 논문에서는 혼합된 작업(mixed tasks)에 대해 단일 모델을 직접 훈련하는 대안으로서, 먼저 개별 작업에 대한 별도의 강화학습 (RL) 전문가를 훈련한 다음 증류 (distillation)를 통해 이들을 통합함으로써 이러한 모델을 구축하는 방법을 연구합니다. 우리는 오프-폴리시 증류 (off-policy distillation)가 순방향 KL (forward KL)의 모드 커버링 (mode-covering) 특성으로 인해 멀티태스크 설정에서 성능이 저하됨을 보여줍니다. 즉, 여러 작업으로부터 데이터를 집계하면 학생 모델 (student)의 용량을 초과할 수 있는 수많은 행동 모드 (behavioral modes)가 도입되어, 모델이 행동들을 평균화하도록 강제하고 성능 저하를 초래합니다. 반면, 온-폴리시 증류 (on-policy distillation)는 모드 시킹 (mode-seeking) 특성을 갖지만 강력한 초기화 (initialization)가 필요합니다. 이러한 관찰에 영감을 받아, 우리는 오프-폴리시 증류에 이어서 온-폴리시 정제 (on-policy refinement)를 수행하는 2단계 접근 방식을 제안합니다. 대화형 에이전트 및 텍스트 기반 게임에 대한 평가 결과, 이 2단계 접근 방식은 각 개별 작업에 대해 단일 작업 RL 전문가의 성능과 일치하는 반면, 오프-폴리시 또는 온-폴리시 증류만으로는 이 성능을 달성하지 못함을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기