본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 04. 01:45

한 도메인의 RL이 다른 도메인을 망가뜨리는 이유

요약

다중 도메인 강화학습(RL) 시 발생하는 도메인 간 간섭 문제를 국소 섭동 이론으로 분석합니다. 짧은 리프레시 과정을 통해 기존 기술의 손실을 선택적으로 복구하고 성능을 최적화할 수 있음을 보여줍니다.

핵심 포인트

  • 다중 도메인 RL 간섭은 저차원 부분 공간에 집중됨
  • 국소 섭동 이론을 통한 간섭 원인 규명
  • 짧은 리프레시로 손실된 기술을 효과적으로 복구 가능
  • 새로운 도메인 학습 후에도 기존 성능 유지 및 향상

한 도메인에서의 강화학습 (RL)이 다른 도메인을 망가뜨립니다—그 이유는 다음과 같습니다.

새로운 국소 섭동 이론 (local perturbation theory)에 따르면, 다중 도메인 강화학습 (multi-domain RL) 간섭은 희소하고 저차원인 부분 공간 (low-dimensional subspace)에 집중되어 있습니다. 해결책은 무엇일까요? 부수적인 피해 없이 손실된 기술을 선택적으로 복구하는 짧은 리프레시 (refresh)입니다.

논문:
https://huggingface.co/papers/2606.02398

Code→Math→QA→CW 학습 이후 짧은 리프레시를 수행하면 Math 점수가 57.66에서 66.04로 회복되며, 부수적인 피해 거의 없이 새로운 최고 평균치인 66.39를 달성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0