
한 도메인의 RL이 다른 도메인을 망가뜨리는 이유
요약
다중 도메인 강화학습(RL) 시 발생하는 도메인 간 간섭 문제를 국소 섭동 이론으로 분석합니다. 짧은 리프레시 과정을 통해 기존 기술의 손실을 선택적으로 복구하고 성능을 최적화할 수 있음을 보여줍니다.
핵심 포인트
- 다중 도메인 RL 간섭은 저차원 부분 공간에 집중됨
- 국소 섭동 이론을 통한 간섭 원인 규명
- 짧은 리프레시로 손실된 기술을 효과적으로 복구 가능
- 새로운 도메인 학습 후에도 기존 성능 유지 및 향상
한 도메인에서의 강화학습 (RL)이 다른 도메인을 망가뜨립니다—그 이유는 다음과 같습니다.
새로운 국소 섭동 이론 (local perturbation theory)에 따르면, 다중 도메인 강화학습 (multi-domain RL) 간섭은 희소하고 저차원인 부분 공간 (low-dimensional subspace)에 집중되어 있습니다. 해결책은 무엇일까요? 부수적인 피해 없이 손실된 기술을 선택적으로 복구하는 짧은 리프레시 (refresh)입니다.
논문:
https://huggingface.co/papers/2606.02398
…
Code→Math→QA→CW 학습 이후 짧은 리프레시를 수행하면 Math 점수가 57.66에서 66.04로 회복되며, 부수적인 피해 거의 없이 새로운 최고 평균치인 66.39를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기