Retrievable Gradients: 누적 가중치 드리프트 없는 지속적 사후 학습
요약
지속적 사후 학습 시 발생하는 가중치 드리프트와 치명적 망각 문제를 해결하기 위해 ReGrad(Retrievable Gradients)를 제안합니다. 그래디언트를 검색 가능한 단위로 저장하여 추론 시점에 필요한 정보만 일시적으로 적용하는 새로운 패러다임을 제시합니다.
핵심 포인트
- 그래디언트를 인덱싱하여 저장하는 Gradient Bank 개념 도입
- 가중치 드리프트 없이 확장 가능한 파라미터 기반 지식 주입 가능
- 이중 수준 메타 학습을 통해 일반화 가능한 적응 신호 생성
- 기존 CPT 및 RAG 방식보다 우수한 성능 입증
지속적 사후 학습 (Continual post-training)은 모델이 배포 후에도 새롭게 등장하는 지식을 흡수할 수 있게 해주지만, 공유 파라미터를 반복적으로 업데이트하면 가중치 드리프트 (weight drift)가 누적되어 잠재적으로 치명적 망각 (catastrophic forgetting)을 유발하고 일반적인 능력을 저하시킬 수 있습니다. 검색 증강 생성 (Retrieval-augmented generation, RAG)은 이러한 파라미터 드리프트를 방지하지만, 파라미터 기반 지식 통합 (parametric knowledge integration)의 깊이가 부족한 경우가 많습니다. 본 논문에서는 그래디언트 (gradients)를 검색 가능한 지식 단위로 취급하는 새로운 패러다임인 ReGrad (Retrievable Gradients)를 제안합니다. ReGrad는 문서별 그래디언트를 오프라인에서 미리 계산하여 인덱싱된 그래디언트 뱅크 (Gradient Bank)에 저장하고, 추론 시점에 쿼리와 관련된 그래디언트만을 검색하여 일시적인 가중치 적응 (weight adaptation)을 수행합니다. 그러나 가공되지 않은 언어 모델링 그래디언트는 쿼리 중심의 지식 활용보다는 토큰 수준의 문서 재구성 (document reconstruction)에 최적화되어 있습니다. 따라서 우리는 문서에서 유도된 그래디언트를 다운스트림 태스크 (downstream tasks)를 위한 일반화 가능한 적응 신호로 재구성하는 이중 수준 메타 학습 (bi-level meta-learning) 목적 함수를 도입합니다. 일반 및 도메인 특화 설정 전반에 걸친 실험 결과, extsc{ReGrad}는 CPT 및 RAG 베이스라인보다 우수한 성능을 보였으며, 가중치 드리프트를 누적하지 않으면서도 확장 가능하고 가역적인 파라미터 기반 지식 주입 (parametric knowledge injection)을 가능하게 함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기