GPT 5.5 (Codex)가 미래 예측 경쟁을 주도하다

Max Planck Institute의 연구진은 최근 에이전트들에게 웹의 시간적 단면(temporal slice)을 다시 재생하여 실제 세계의 미래 사건을 예측하도록 과제를 부여하는 환경인 FutureSim을 공개했습니다.

해당 환경에서 GPT 5.5가 25%의 정확도(acc)로 앞서고 있으며, Opus 4.6이 20%로 그 뒤를 잇고 있습니다. 오픈 웨이트 (Open weight) 프런티어 모델들은 따라잡아야 할 상당한 격차가 존재하며, DeepSeek V4 pro가 13%, GLM 5.1이 10%, Qwen3.6 Plus가 5%를 기록했습니다. 연구진은 네이티브 하네스 (native harnesses, Codex, CC 등)를 사용하여 평가했다고 밝혔습니다.

r/Polymarket 시장과 병행되는 일부 질문들에서, GPT 5.5는 그들의 시뮬레이션 내에서 때때로 대중의 집계(crowd aggregate)를 능가하기도 합니다. 예를 들어 Super Bowl LX ($704M 거래됨) 시장의 경우가 그러하며, 이는 매우 유망하고 (동시에 놀라운) 결과라고 생각합니다.

OpenAI는 이번에 GPT 5.5(및 Codex)로 정말 대단한 결과물을 만들어냈습니다! 모델들이 계속 개선됨에 따라 거래 시장이 어떻게 진화할지 궁금합니다.

Insights

GPT 5.5 (Codex)가 미래 예측 경쟁을 주도하다

요약

핵심 포인트

댓글

AI 에이전트를 위한 실시간 "면역 체계" 구축: 인젝션(Injection) 및 드리프트(Drift)로부터 LangGraph 워크로드 보호하기

FastAPI 전용 배포 플랫폼 출시 - 단 한 번의 명령어로 가능

거대 열대 나무는 꼭대기 가지까지 물을 잘 끌어올린다는 새 연구

FuseDream: 개선된 CLIP+GAN 공간 최적화(Space Optimization)를 통한 학습이 필요 없는 텍est-to-Image

AI 에이전트를 위한 실시간 "면역 체계" 구축: 인젝션(Injection) 및 드리프트(Drift)로부터 LangGraph 워크로드 보호하기

FastAPI 전용 배포 플랫폼 출시 - 단 한 번의 명령어로 가능

거대 열대 나무는 꼭대기 가지까지 물을 잘 끌어올린다는 새 연구

FuseDream: 개선된 CLIP+GAN 공간 최적화(Space Optimization)를 통한 학습이 필요 없는 텍est-to-Image