행동 파운데이션 모델 (Behavioral Foundation Models)을 활용한 탐색 및 온라인 전이
요약
행동 파운데이션 모델(BFM)을 활용하여 보상이 블랙박스인 환경에서도 온라인으로 전이 학습을 수행하는 새로운 프레임워크를 제안합니다. 밴딧 스타일의 탐색-활용 문제를 통해 에이전트가 환경과 상호작용하며 최적의 정책을 찾아가는 과정을 다룹니다.
핵심 포인트
- 보상 데이터셋 없이 환경 상호작용만으로 학습하는 온라인 전이 문제 해결
- BFM을 탐색 정책 생성 도구로 활용하여 제로샷 RL 성능 개선
- 탐색-활용 문제를 밴딧(Bandit) 스타일의 프레임워크로 정식화
- UCB 알고리즘에서 영감을 얻은 불확실성 최소화 탐색 방법론 제안
강화학습 (RL)에서의 제로샷 전이 (Zero-shot Transfer)는 보상이 없는 궤적 (reward-free trajectories)만으로 학습하면서, 전이 시점에 추가적인 학습 없이 어떤 보상 함수에 대해서도 최적의 정책 (optimal policies)을 생성할 수 있는 에이전트를 훈련하는 것을 목표로 합니다. 작업에 대한 범용성 때문에 이러한 모델들은 때때로 "행동 파운데이션 모델 (Behavioral Foundation Models, BFMs)"이라고 불립니다. 최근 몇 년 동안 이러한 모델들은 강력한 성능과 개선을 보여주었지만, 현재의 프레임워크와 알고리즘은 여전히 전이 단계 동안 에이전트가 상태-보상 (state-reward) 쌍의 데이터셋을 통해 보상(해결해야 할 작업)을 오프라인으로 전달받는다고 가정하며, 에이전트는 이를 사용하여 배포할 최적의 정책을 선택합니다. 그러나 실제로 보상이 블랙박스(예: 직접적인 사용자 피드백)인 경우, 그러한 데이터셋을 생성하는 것은 불가능합니다. 즉, 환경과의 상호작용을 통해 보상을 관찰하는 것이 필수적입니다. 다시 말해, 현재의 오프라인 전이 (offline transfer) 프레임워크는 보상을 찾기 위해 탐색 (exploration)을 필요로 하는 시행착오를 통한 온라인 학습이라는 전통적인 RL 설정과 일치하지 않습니다. 본 논문은 BFM 자체가 탐색 정책 (exploration policies)을 생성하는 데 사용될 수 있다는 핵심 통찰을 바탕으로, 제로샷 RL에서의 이러한 새로운 온라인 전이 문제를 해결할 것을 제안합니다. 우리는 이 온라인 학습 문제를 밴딧 (bandit) 스타일의 탐색-활용 (exploration-exploitation) 문제로 구성하는 것이 가능하다는 것을 보여줍니다. 더 정확하게는, 각 단계에서 밴딧 알고리즘이 정책을 추천하면, BFM이 환경에서 이를 실행하여 보상과 새로운 상태를 얻습니다. 우리는 최적의 정책으로 수렴할 때까지 이 과정을 반복합니다. 대중적인 선형 보상 근사 (linear reward approximation) 맥락에서, 우리는 상한 신뢰 구간 (Upper Confidence Bound, UCB)에서 영감을 얻은 정식화를 도출하고, 불확실성 행렬 (uncertainty matrix)의 고유값 (eigenvalues) 최소화를 통해 탐색이 달성될 수 있음을 보여줍니다. 우리는 제안하는 방법의 개념을 검증하기 위해 간단한 환경에서 우리의 프레임워크를 정성적 및 정량적으로 평가합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기