다중 도메인 강화학습 (Multi-Domain RL)에서의 교차 도메인 간섭 및 회복을 위한 국소 섭동 이론 (A Local
요약
다중 도메인 강화학습(RL) 시 발생하는 도메인 간 성능 저하 현상을 국소 섭동 이론으로 분석한 연구입니다. 학습 과정에서 발생하는 간섭이 특정 공유 충돌 부공간에 집중됨을 증명하고, 짧은 도메인 리프레시를 통해 성능을 효과적으로 회복할 수 있음을 보여줍니다.
핵심 포인트
- 다중 도메인 RL 학습 시 발생하는 간섭의 메커니즘 규명
- 간섭이 저차원의 공유 충돌 부공간에 집중됨을 증명
- 짧은 도메인 리프레시를 통한 성능 회복 가능성 제시
- 학습이 필요 없는 롤백(training-free rollback) 기법 제안
강화학습 (RL) 사후 학습 (post-training)은 수학적 추론, 코드 생성, 질의응답, 창의적 글쓰기 (CW)와 같은 개별 도메인에서 대규모 언어 모델 (LLMs)의 성능을 향상시키지만, 한 도메인에서의 학습은 종종 다른 도메인의 성능을 저하시킵니다. 파괴적 망각 (catastrophic forgetting) 또는 전역적 그래디언트 충돌 (global gradient conflict)에 기반한 기존의 설명들은 불완전합니다. 전체 모델의 그래디언트 (gradients)가 거의 직교 (orthogonal)할 때조차 상당한 간섭이 발생할 수 있기 때문입니다. 본 연구에서는 단일 도메인 RL이 가장 많이 변화하는 뉴런들 사이의 중첩이 약한, 희소하고(sparse) 작은 크기의 파라미터 수정 (parameter edits)을 생성하는 반면, 서로 다른 도메인들은 여전히 상당한 활성 계산 경로 (active computation routes)를 공유하며, 이 경로 위에서 업데이트 방향이 시너지 효과를 낼지 혹은 충돌할지를 결정한다는 것을 보여줍니다. 이러한 관찰에 기반하여, 본 연구는 다중 도메인 RL의 국소 섭동 모델 (local perturbation model) 하에서 후기 도메인 학습이 주로 2차 손상 항 (second-order damage term)을 통해 초기 도메인에 해를 끼친다는 것을 증명하며, 관찰된 희소 경로 구조 하에서 이 항은 저차원의 공유 충돌 부공간 (shared conflict subspace)에 집중됩니다. 또한, 짧은 도메인 리프레시 (domain refresh)는 이 부공간에서의 유해한 성분을 수축시켜, 부수적인 피해를 최소화하면서 선택적인 회복을 가능하게 합니다. 이론과 일치하게, Code $
ightarrow$ Math $
ightarrow$ QA $
ightarrow$ CW 순서 이후 짧은 Re-Math 리프레시를 수행하면, 다른 도메인의 성능을 크게 유지하면서 Math 성능을 57.66에서 66.04로 회복시켜 66.39라는 최고의 평균 점수를 기록했습니다. 리프레시를 넘어, Math-QA 쌍에 대해 희소 프록시 충돌 좌표 집합 (sparse proxy conflict coordinate set)을 이용한 학습이 필요 없는 롤백 (training-free rollback)은 Math를 부분적으로 복구하며, 이는 국소적 손상에 대한 직접적인 프록시 수준의 증거를 제공합니다. 이러한 결과는 다중 도메인 RL에서의 간섭 및 회복에 대한 국소적 메커니즘적 설명 (localized mechanistic account)을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기