X요약2026. 06. 04. 01:45

한 도메인의 RL이 다른 도메인을 망가뜨리는 이유

요약

다중 도메인 강화학습(RL) 시 발생하는 도메인 간 간섭 문제를 국소 섭동 이론으로 분석합니다. 짧은 리프레시 과정을 통해 기존 기술의 손실을 선택적으로 복구하고 성능을 최적화할 수 있음을 보여줍니다.

핵심 포인트

다중 도메인 RL 간섭은 저차원 부분 공간에 집중됨
국소 섭동 이론을 통한 간섭 원인 규명
짧은 리프레시로 손실된 기술을 효과적으로 복구 가능
새로운 도메인 학습 후에도 기존 성능 유지 및 향상

한 도메인에서의 강화학습 (RL)이 다른 도메인을 망가뜨립니다—그 이유는 다음과 같습니다.

새로운 국소 섭동 이론 (local perturbation theory)에 따르면, 다중 도메인 강화학습 (multi-domain RL) 간섭은 희소하고 저차원인 부분 공간 (low-dimensional subspace)에 집중되어 있습니다. 해결책은 무엇일까요? 부수적인 피해 없이 손실된 기술을 선택적으로 복구하는 짧은 리프레시 (refresh)입니다.

논문:
https://huggingface.co/papers/2606.02398
…
Code→Math→QA→CW 학습 이후 짧은 리프레시를 수행하면 Math 점수가 57.66에서 66.04로 회복되며, 부수적인 피해 거의 없이 새로운 최고 평균치인 66.39를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

한 도메인의 RL이 다른 도메인을 망가뜨리는 이유

요약

핵심 포인트

댓글