arXiv논문2026. 05. 04. 19:40

SAVGO: 연속 제어에서 코사인 유사성을 활용한 상태-행동 가치 기하학 학습

요약

SAVGO는 강화학습(RL)의 샘플 효율성을 높이기 위해 상태-행동 가치 기하학을 활용하는 새로운 알고리즘입니다. 이 방법은 유사한 행동-가치 추정을 가진 쌍이 높은 코사인 유사도를 갖도록 임베딩 공간을 학습하며, 이를 통해 정책 업데이트를 지역적 기울기 기반 방식에서 벗어나 더 넓고 높은 가치의 영역으로 직접 안내할 수 있습니다. SAVGO는 표현 학습, 가치 추정 및 정책 최적화를 단일 기하학 일관성 목표로 통합하여 오프-폴리시 훈련의 확장성을 유지하며, 연속 제어 과제에서 강력한 성능 개선을 입증했습니다.

핵심 포인트

SAVGO는 상태-행동 가치(State-Action Value) 기하학 학습을 통해 RL의 샘플 효율성 문제를 해결합니다.
핵심 아이디어는 유사한 행동-가치 추정 쌍이 임베딩 공간에서 높은 코사인 유사도를 갖도록 강제하는 것입니다.
이를 통해 정책 업데이트가 단순히 지역적 기울기(local gradient)를 따르는 것이 아니라, 기하학적으로 더 가치가 높은 영역으로 직접 안내됩니다.
SAVGO는 표현 학습, 가치 추정 및 정책 최적화를 하나의 일관된 기하학 목표로 통합합니다.

표현 학습과 유사성 학습은 강화학습 (RL) 의 샘플 효율성을 개선해 왔으나, 행동 공간에 직접 정책 업데이트를 형성하는 데는 거의 사용되지 않는다. 이 격차를 해소하기 위해, 정책 업데이트에 명시적으로 가치 기반 유사성을 통합하는 기하학 인식 강화학습 알고리즘인 상태-행동 가치 기하학 최적화 (SAVGO) 가 제안된다. 구체적으로, SAVGO 는 유사한 행동-가치 추정을 가진 쌍이 높은 코사인 유사도를 보일 수 있도록 결합된 상태-행동 임베딩 공간을 학습한다. 반면, 불연속적인 쌍은 다른 방향으로 매핑된다. 이러한 학습된 기하학은 각 업데이트에서 샘플링된 후보 행동에 대한 유사성 커널 생성을 가능하게 하며, 정책 개선을 지역 기반 기울기 업데이트를 넘어 더 높은 가치 영역으로 직접 안내할 수 있게 한다. 결과적으로, 표현 학습, 가치 추정 및 정책 최적화는 단일 기하학 일관된 목표 내에서 통합되며, 오프-폴리시 액터 - 크리티크 훈련의 확장성을 유지한다. 제안된 방법은 표준 MuJoCo 연속 제어 벤치마크에서 평가되었으며, 도전적인 고차원 과제에서 강력한 베이스라인에 대한 개선이 입증되었다. 가치 기하학 학습과 유사성 기반 정책 업데이트의 기여도를 분석하기 위해 Ablation studies 가 수행되었다.

AI 자동 생성 콘텐츠

원문 바로가기

SAVGO: 연속 제어에서 코사인 유사성을 활용한 상태-행동 가치 기하학 학습

요약

핵심 포인트

댓글