arXiv논문2026. 04. 30. 12:47

FutureWorld: 실세계 결과 보상 기반 예측 에이전트 학습을 위한 실시간 환경

요약

FutureWorld는 실시간 미래 예측(Live future prediction)을 위한 새로운 강화학습 환경입니다. 이 환경은 예측, 결과 실현, 매개변수 업데이트 과정을 연결하여 대규모 언어 모델 기반 에이전트가 실제 세계 사건에 대해 지속적으로 학습할 수 있도록 설계되었습니다. 연구진은 이 환경에서 3개의 오픈소스 베이스 모델을 사용하여 학습을 수행하고 그 효과를 입증했으며, 나아가 현재 에이전트 시스템의 성능 기준선을 확립하기 위한 일일 벤치마크도 구축했습니다.

핵심 포인트

FutureWorld는 실시간 미래 예측 기반의 통합된 강화학습 환경을 제공합니다.
이 환경은 '예측(Prediction)', '결과 실현(Outcome realization)', '매개변수 업데이트(Parameter update)' 사이클을 연결하여 에이전트 학습을 촉진합니다.
연구팀은 FutureWorld를 사용하여 3개의 오픈소스 베이스 모델에 대한 연속적인 일일 학습을 성공적으로 수행했습니다.
새롭게 구축된 환경 기반의 일일 벤치마크는 현재 에이전트 시스템 성능 평가의 기준점을 제시합니다.

Live future prediction(실시간 미래 예측)은 사건이 전개되기 전에 실세계 사건에 대한 예측을 수행하는 작업을 의미합니다. 이 작업은 대규모 언어 모델 기반 에이전트 시스템을 사용하여 점점 더 많이 연구되고 있으며, 실세계에서 지속적으로 학습할 수 있는 에이전트를 구축하는 데 중요합니다. 상호작용 환경이 에이전트의 진보를 주도해 온 것과 마찬가지로, 실시간 미래 예측의 발전을 자연스럽게 이를 학습 환경으로 간주하도록 동기부여합니다. 이전 작업들은 미래 예측을 여러 다른 측면에서 탐구해 왔지만, 일반적으로 이를 통합된 학습 환경으로 framed(구성)하지는 않았습니다. 이 작업은 학습에 매력적인 이유는 다양한 실세계 사건에 기반한 수많은 예측 질문을 제공하면서도 정답 유출을 방지할 수 있기 때문입니다. 실시간 미래 예측의 장점을 활용하기 위해 우리는 예측, 결과 실현, 매개변수 업데이트 사이를 연결하는 실시간 에이전트 강화학습 환경인 FutureWorld 를 제시합니다. 우리의 환경에서는 3 개의 오픈소스 베이스 모델을 사용하여 연속적인 일 동안 학습을 수행했습니다. 그 결과는 학습이 효과적임을 보여줍니다. 또한, 우리는 해당 환경에 기반한 일일 벤치마크를 구축하여 현재 에이전트 시스템의 성능 기준선을 확립하기 위해 여러 프론티어 에이전트를 평가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FutureWorld: 실세계 결과 보상 기반 예측 에이전트 학습을 위한 실시간 환경

요약

핵심 포인트

댓글