본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 20. 01:19

GPT 5.5 (Codex)가 미래 예측 경쟁을 주도하다

요약

Max Planck Institute 연구진이 공개한 FutureSim 환경에서 GPT 5.5(Codex)가 미래 사건 예측 과제에서 25%의 정확도를 기록하며 선두를 달리고 있습니다. GPT 5.5는 일부 사례에서 Polymarket과 같은 대중의 집계 예측을 능가하는 성능을 보였으며, 오픈 웨이트 모델들과는 상당한 성능 격차를 나타냈습니다.

핵심 포인트

  • FutureSim 환경에서 GPT 5.5가 25%의 정확도로 가장 높은 예측 성능을 기록함
  • Opus 4.6(20%)이 뒤를 이었으며, DeepSeek V4 pro, GLM 5.1 등 오픈 웨이트 모델들은 상대적으로 낮은 성능을 보임
  • GPT 5.5는 Super Bowl LX 시장 예측 사례와 같이 대중의 집계(crowd aggregate)를 능가하는 모습을 보임
  • 모델의 미래 예측 능력이 실제 거래 시장(Polymarket 등)과 연계될 가능성을 시사함

Max Planck Institute의 연구진은 최근 에이전트들에게 웹의 시간적 단면(temporal slice)을 다시 재생하여 실제 세계의 미래 사건을 예측하도록 과제를 부여하는 환경인 FutureSim을 공개했습니다.

해당 환경에서 GPT 5.5가 25%의 정확도(acc)로 앞서고 있으며, Opus 4.6이 20%로 그 뒤를 잇고 있습니다. 오픈 웨이트 (Open weight) 프런티어 모델들은 따라잡아야 할 상당한 격차가 존재하며, DeepSeek V4 pro가 13%, GLM 5.1이 10%, Qwen3.6 Plus가 5%를 기록했습니다. 연구진은 네이티브 하네스 (native harnesses, Codex, CC 등)를 사용하여 평가했다고 밝혔습니다.

r/Polymarket 시장과 병행되는 일부 질문들에서, GPT 5.5는 그들의 시뮬레이션 내에서 때때로 대중의 집계(crowd aggregate)를 능가하기도 합니다. 예를 들어 Super Bowl LX ($704M 거래됨) 시장의 경우가 그러하며, 이는 매우 유망하고 (동시에 놀라운) 결과라고 생각합니다.

OpenAI는 이번에 GPT 5.5(및 Codex)로 정말 대단한 결과물을 만들어냈습니다! 모델들이 계속 개선됨에 따라 거래 시장이 어떻게 진화할지 궁금합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0