FutureWorld: 실세계 결과 보상 기반 예측 에이전트 학습을 위한 실시간 환경
요약
FutureWorld는 실시간 미래 예측(Live future prediction)을 위한 새로운 강화학습 환경입니다. 이 환경은 예측, 결과 실현, 매개변수 업데이트 과정을 연결하여 대규모 언어 모델 기반 에이전트가 실제 세계 사건에 대해 지속적으로 학습할 수 있도록 설계되었습니다. 연구진은 이 환경에서 3개의 오픈소스 베이스 모델을 사용하여 학습을 수행하고 그 효과를 입증했으며, 나아가 현재 에이전트 시스템의 성능 기준선을 확립하기 위한 일일 벤치마크도 구축했습니다.
핵심 포인트
- FutureWorld는 실시간 미래 예측 기반의 통합된 강화학습 환경을 제공합니다.
- 이 환경은 '예측(Prediction)', '결과 실현(Outcome realization)', '매개변수 업데이트(Parameter update)' 사이클을 연결하여 에이전트 학습을 촉진합니다.
- 연구팀은 FutureWorld를 사용하여 3개의 오픈소스 베이스 모델에 대한 연속적인 일일 학습을 성공적으로 수행했습니다.
- 새롭게 구축된 환경 기반의 일일 벤치마크는 현재 에이전트 시스템 성능 평가의 기준점을 제시합니다.
Live future prediction(실시간 미래 예측)은 사건이 전개되기 전에 실세계 사건에 대한 예측을 수행하는 작업을 의미합니다. 이 작업은 대규모 언어 모델 기반 에이전트 시스템을 사용하여 점점 더 많이 연구되고 있으며, 실세계에서 지속적으로 학습할 수 있는 에이전트를 구축하는 데 중요합니다. 상호작용 환경이 에이전트의 진보를 주도해 온 것과 마찬가지로, 실시간 미래 예측의 발전을 자연스럽게 이를 학습 환경으로 간주하도록 동기부여합니다. 이전 작업들은 미래 예측을 여러 다른 측면에서 탐구해 왔지만, 일반적으로 이를 통합된 학습 환경으로 framed(구성)하지는 않았습니다. 이 작업은 학습에 매력적인 이유는 다양한 실세계 사건에 기반한 수많은 예측 질문을 제공하면서도 정답 유출을 방지할 수 있기 때문입니다. 실시간 미래 예측의 장점을 활용하기 위해 우리는 예측, 결과 실현, 매개변수 업데이트 사이를 연결하는 실시간 에이전트 강화학습 환경인 FutureWorld 를 제시합니다. 우리의 환경에서는 3 개의 오픈소스 베이스 모델을 사용하여 연속적인 일 동안 학습을 수행했습니다. 그 결과는 학습이 효과적임을 보여줍니다. 또한, 우리는 해당 환경에 기반한 일일 벤치마크를 구축하여 현재 에이전트 시스템의 성능 기준선을 확립하기 위해 여러 프론티어 에이전트를 평가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기