arXiv논문2026. 04. 29. 12:35

TSN-Affinity: 유사도 기반 매개변수 재사용을 통한 연속 오프라인 강화학습

요약

본 논문은 연속 오프라인 강화학습(CORL)의 어려움인 재앙적 망각과 분포 불일치 문제를 해결하기 위해 TSN-Affinity라는 새로운 방법을 제안합니다. 이 방법은 TinySubNetworks와 Decision Transformer를 기반으로 하며, 액션 호환성 및 잠재적 유사도에 따라 작업을 라우팅하고 작업별 매개변수화와 제어된 지식 공유를 통해 성능 유지율을 높입니다. Atari 게임과 로봇팔 조작 시뮬레이션을 통해 이 접근법이 기존의 재현 기반 방법보다 강력하고 실용적인 대안임을 입증했습니다.

핵심 포인트

연속 오프라인 강화학습(CORL)은 성능 유지와 적응이라는 두 가지 어려움을 동시에 해결해야 한다.
기존의 Replay 기반 접근법은 메모리 오버헤드와 분포 불일치 문제를 겪는다.
TSN-Affinity는 TinySubNetworks 및 Decision Transformer를 활용하여 RL 특성을 고려한 재사용 전략을 구현한다.
작업 라우팅(Task Routing)을 통해 액션 호환성 및 잠재적 유사도에 기반하여 지식을 공유함으로써 다중 작업 성능을 향상시킨다.

연속 오프라인 강화학습 (CORL) 은 시간이 지남에 따라 수집된 데이터셋에서 일련의 작업을 학습하면서도 이전에 학습한 작업에서의 성능을 유지하는 것을 목표로 합니다. 이 설정은 새로운 작업이 시간에 따라 발생하지만, 라이브 환경 상호작용에서 모델을 적응시키는 것이 비용이 많이 들거나 위험하거나 불가능한 도메인에 해당합니다. 그러나 CORL 은 오프라인 강화학습과 Catastrophic Forgetting(재앙적 망각) 을 방지하면서 적응하는 이중적인 어려움을 물려받습니다. Replay 기반의 연속 학습 접근법은 여전히 강력한 베이스라인이나, 재생된 샘플과 새로 학습된 정책 간 분포 불일치 (distribution mismatch) 를 겪으며 메모리 오버헤드를 초래합니다. 한편, 구조적 연속 학습 방법은 지도학습에서 강력한 잠재력을 보였으나 CORL 에서 아직 충분히 탐구되지 않았습니다. 본 연구에서는 TinySubNetworks 와 Decision Transformer 를 기반으로 한 새로운 CORL 방법인 TSN-Affinity 를 제안합니다. 이 방법은 RL 의 특성을 고려한 재사용 전략 (RL-aware reuse strategy) 을 통해 작업별 매개변수화와 제어된 지식 공유를 가능하게 하며, 액션 호환성 및 잠재적 유사도 (latent similarity) 에 따라 작업을 라우팅합니다. 우리는 Atari 게임 기반 벤치마크와 Franka Emika Panda 로봇팔의 조작 작업 시뮬레이션에 대한 이 접근법을 평가하여, 이산적이고 연속적인 제어를 모두 다루었습니다. 결과는 희소한 SubNetworks 에서 강력한 유지율을 보였으며, 라우팅이 다중 작업 성능을 추가로 향상시켰음을 보여줍니다. 우리의 발견은 유사도 기반 구조적 재사용이 CORL 설정에서 Replay 기반 전략의 강력하고 실현 가능한 대체책임을 시사합니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/anonymized-for-submission123/tsn-affinity.

AI 자동 생성 콘텐츠

원문 바로가기

TSN-Affinity: 유사도 기반 매개변수 재사용을 통한 연속 오프라인 강화학습

요약

핵심 포인트

댓글