강화학습 (Reinforcement Learning) 파운데이션 모델은 이미 존재해야 한다
요약
구조화된 데이터인 강화학습(RL)을 위한 파운데이션 모델의 필요성과 방법론을 제시합니다. 합성 MDP를 활용한 사전 설계와 어텐션 기반 아키텍처를 통해, 별도의 튜닝 없이도 인컨텍스트 방식으로 정형 데이터 벤치마크를 해결할 수 있음을 증명합니다.
핵심 포인트
- 강화학습 분야의 파운데이션 모델 구축을 위한 합성 MDP 활용 제안
- 어텐션 기반 아키텍처를 MDP의 충분 통계량에 직접 적용 가능
- 작업별 튜닝 없이 인컨텍스트 방식으로 온라인/오프라인 RL 문제 해결
- 기존 UCB-VI 및 정형 Q-러닝 대비 효율적인 에피소드 사용
언어와 비전(vision)을 위한 파운데이션 모델 (Foundation models)은 인터넷 규모의 데이터에 의해 구동되는 반면, 구조화된 도메인(정형 데이터 예측 (tabular prediction), 시계열 예측 (time-series forecasting), 그래프 학습 (graph learning), 강화학습 (reinforcement learning))은 그렇지 않습니다. 그 대안은 합성 데이터 (synthetic data)이며, 이는 부담을 수집에서 사전 설계 (prior design)로 전환합니다. 이러한 사전 정보 (priors)는 이미 많은 구조화된 작업에 존재합니다. 예를 들어, TabPFN과 그 후속 모델들은 합성 베이지안 사전 정보 (synthetic Bayesian prior)로 사전 학습된 트랜스포머 (transformer)를 사용하여 정형 데이터 분류 (tabular classification) 문제를 해결합니다. 우리는 두 가지 점을 제시합니다. extbf{첫째}, 강화학습 (reinforcement learning)은 눈에 띄는 공백입니다. 합성 MDP (Markov Decision Process)를 샘플링하는 것은 합성 정형 데이터셋을 샘플링하는 것만큼이나 실행 가능하지만, 사전 설계를 주요 목표로 다루는 인컨텍스트 (in-context) RL 연구는 아직 없습니다. extbf{둘째}, MDP는 관찰된 에피소드와 무관하고 정형화된 형태를 가진 고정 크기의 충분 통계량 (sufficient statistic)을 허용하며, 이는 지도 학습 대상 (supervised target)을 정책 헤드 (policy head)로 대체함으로써 정형 데이터 파운데이션 모델에 사용되는 어텐션 기반 아키텍처 (attention-based architectures)에 직접적으로 적용될 수 있게 합니다. 이 두 가지가 결합되어 RL 파운데이션 모델의 의제를 정의합니다. 개념 증명 (proof of concept)으로서, 우리는 전체를 합성 MDP로 학습시킨 모델을 훈련하며, 작업별 튜닝 (task-specific tuning) 없이도 이 모델이 온라인 및 오프라인 모두에서 인컨텍스트 방식으로 홀드아웃 (held-out) 정형 데이터 벤치마크를 해결함을 보여줍니다. 온라인에서는 UCB-VI 및 정형 Q-러닝 (tabular Q-learning)보다 훨씬 적은 에피소드로 해결하며, 오프라인에서는 VI-LCB와 경쟁할 만한 성능을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기