미래로 돌아옴: 미래 사건 예측을 통한 AI 에이전트 평가

현재 대부분의 AI 벤치마크는 과거에 대한 질문을 답변하는 데 초점을 맞추고 있습니다. 이는 기존 지식 (정적 방식, 예: HLE 또는 GPQA) 을 테스트하거나, 이미 해결된 문제 (예: PaperBench, DABStep, 또는 대부분의 코딩 평가) 를 통해 수행됩니다. 그러나 우리는 더 가치 있는 AI, 그리고 궁극적으로 AGI 는 단순히 오래된 사실을 되풀이하는 것이 아니라, 과거를 사용하여 미래의 흥미로운 측면을 예측할 수 있는 능력으로 구별될 것이라고 믿습니다.

미래 사건 예측은 복잡하고 포괄적인 작업입니다: 이는 패턴 매칭이나 기존 정보 검색에 대항하거나, 단순한 패턴 매칭에 의존하지 않고 고급 추론, 종합, 확률 가중치 부여 및 진정한 이해를 필요로 합니다. 과학, 경제학, 지정정치, 또는 기술 분야에서의 미래 결과를 예측할 수 있는 능력을 모델 평가는 실제 세계의 가치를 창출하는 종류의 지능을 테스트합니다.

이 예측 기반 접근법은 현재 평가와 벤치마크에서 직면한 많은 방법론적 문제를 해결합니다. 고정된 테스트 세트의 정확도를 측정하는 전통적인 벤치마크는 가능한 데이터 오염에 의해 필연적으로 영향을 받으며, 모델의 완전한 재현 가능한 훈련 파이프라인에 액세스할 수 없으면 결과를 신뢰하기 어렵습니다. 현재 가장 심각한 평가 노력은 테스트 세트를 완전히 비공개로 유지하여 평가자와 잠재적 "리더보드 조작" 메커니즘 (Singh et al., 2025) 사이의 짜증나는 군비 경쟁을 만듭니다.

예측은 설계상 오염이 불가능하게 합니다. 아직 존재하지 않는 데이터로 훈련할 수 있기 때문입니다! 이는 성공이 암기보다는 추론 능력에 의존하는 평등한 경기장을 만듭니다.

가장 중요한 것은 미래에 대한 예측이 본질적으로 검증 가능하다는 것입니다. 우리는 누가 맞았는지 기다리고 확인하여 모델 성능의 객관적이고 시간 스타임된 측정을 생성할 수 있습니다.

따라서 우리는 에이전트의 미래 사건 예측 능력 (Ye et al., 2024; Karger et al., 2025) 을 평가하는 것을 제안합니다. FutureBench 는 실제 미래 결과를 기반으로 한 흥미로운 예측 작업을 만들기 위해 실제 세계 예측 시장과 새로 등장한 뉴스를 참조합니다. 우리는 플랫폼과 라이브 뉴스 보도 및 다양한 시장에서 사건을 수집하여 예측할 가치가 있는 새로운 사건에 집중하도록 필터링합니다. 에이전트 기반 접근법을 사용하여 단순 패턴 매칭이 아닌 진정한 추론을 필요로 하는 시나리오를 선별합니다. 지정정치적 발전, 시장 변동 또는 기술 채택 추세와 같은 정보 분석이 실제로 중요한 사건들을 생각해보세요.

이는 명백한 질문이며, 이 벤치마크가 흥미로운 핵심에 있습니다! 우리는 답이 단순한 "예" 또는 "아니오"가 될 수 없다고 믿으며, 이는 실제 질문에 대부분 의존합니다. 항상 고려해야 할 중요한 주의사항이 있습니다. 인간은 현재 정보를 가중치 부여하여 미래 사건을 예측하는 능력을 끊임없이 사용합니다. 대부분의 경력 결정, 관계 선택, 또는 심지어 비즈니스 전략은 미래 결과에 대한 베팅이 아닌가요?

일부 예측은 불가피한 불확실성을 포함합니다 (2027 년 12 월 17 일 오후에 비가 올 것인가?). 하지만 많은 예측은 그렇지 않습니다. 숙련된 분석가가 기업의 분기별 실적이나 정책 전문가가 선거 결과를 예측할 때, 그들은 이용 가능한 정보를 바탕으로 합리적인 결정을 내립니다. 바로 FutureBench 에서 AI 에이전트에게 요청하는 것입니다! 이 작업은 에이전트를 점술가로 만드는 것이 아니라, 다른 벤치마크보다 더 강한 불확실성 하에 정보를 종합하고 추론하는 것입니다.

에이전트의 예측 품질은 관련 정보를 검색하고 복잡한 데이터를 종합하며 인과 관계를 추론할 수 있는 능력의 직접적인 반영입니다. 이는 우리가 실제 응용 프로그램에서 측정하고자 하는 정확히 동일한 능력입니다.

DeepResearch 와 같은 도구는 이미 시장 분석 및 전략 계획에 사용되고 있습니다. 정보 수집의 품질은 결정 효과성과 강하게 상관관계를 가집니다. FutureBench 는 이 평가 과정을 영감을 받아 에이전트의 품질을 객관적이고 검증 가능한 결과로 계산하려고 합니다.

실제 예측 능력을 테스트하는 벤치마크를 구축하려면 의미 있는 질문이 지속적으로 필요합니다. 우리는 서로 다른 유형의 미래 사건을 포착하는 두 가지 보완적인 접근법을 개발했습니다:

우리의 첫 번째 접근법은 AI 를 사용하여 현재 사건의 예측 기회를 발굴합니다. smolagents 기반 에이전트를 배포하여 주요 뉴스 웹사이트 몇 가지를 크롤링하고, 프론트 페이지 기사를 분석하며, 그 결과에 대한 예측 질문을 생성합니다. 에이전트는 내용을 읽어서 흥미로운 기사를 식별하고, 해당 콘텐츠에서 구체적인 시간 제한된 질문을 작성합니다. 예를 들어 "연준이 2025 년 7 월 1 일까지 적어도 0.25% 의 이자율을 인하할 것인가?"

우리는 좋은 예측 질문이 무엇인지 지정하는 신중하게 제작된 프롬프트로 이 과정을 안내합니다—의미 있는 사건, 검증 가능한 결과, 불확실성 추출 시간.

기술 스택:

모델: DeepSeek-V3 추론 및 질문 생성용크롤링: Firecrawl 신뢰할 수 있는 콘텐츠 추출용검색: Tavily 필요시 추가 컨텍스트용

에이전트는 일반적으로 크롤링 세션당 5 개의 질문을 생성하며, 시간 범위는 일주일로, 즉 우리는 해당 질문에 대한 답변을 7 일 후 알 것이라고 가정합니다. 이는 실제 세계의 사건과 연결된 신선한 평가 자료가 자연스럽게 파이프라인으로 들어오는 것을 제공합니다.

우리의 두 번째 출처는 Polymarket 에서 나옵니다. 이 질문들은 미래 사건의 예측에 대해 실제 참여자가 예언하는 예측 시장 플랫폼에서 비롯됩니다. 우리는 현재 주당 약 8 개의 질문을 수집합니다.

그러나 원본 데이터는 필터링이 필요합니다. 우리는 온도 관련 일반적 질문과 주식 및 암호화폐 시장 관련 일부 질문을 제거하기 위해 강력한 필터링을 적용합니다. 이는 벤치마크에 실용적으로 너무 많기 때문입니다. 또한, Polymarket 의 질문은 최종 "실현" 시간의 제약이 적습니다. 실제 사건의 결과는 다음 달이나 연말까지만 제공될 수 있습니다. 이 질문들은 여전히 매우 관련성이 높지만, 결과 데이터 수집은 더 희소합니다.

다음은 우리의 질문 생성 파이프라인에서 나온 예시입니다:

News-Generated | Polymarket | |---| | "2025 년 7 월 1 일까지 연준이 적어도 0.25% 의 금리를 인하할 것인가?" | "6 월 월평균 인플레이션이 0.2% 증가할 것인가?" | "2025 년 7 월 8 일까지 우크라이나와 러시아가 평화 협상을 진행할 것인가?" | "뉴욕 시城主民主党初選에서 Zohran Mamdani 의 RCV 승선 여지는 13% 보다 큰 것인가?" |

다음 질문은, 이러한 유형의 벤치마크는 무엇을 측정할 수 있는지를 묻는 것입니다. 이 프레임워크는 세 가지 다른 수준을 기반으로 작동하여 우리가 정확히 무엇을 측정하는지 분리합니다:

Level 1: Framework Comparison(프레임워크 비교)기초 LLM 과 도구를 일정하게 유지하면서 프레임워크를 다양화합니다. LangChain 기반 에이전트가 GPT-4 와 동일한 검색 도구를 사용하는 CrewAI 기반 에이전트와 어떻게 비교되는가? 이는 다른 에이전트 프레임워크의 영향을 분리합니다.Level 2: Tool Performance(도구 성능)LLM 과 프레임워크를 고정하고 다른 구현을 비교합니다. 어떤 검색 도구 (예: Tavily, Google, Bing) 가 다른 검색 엔진보다 더 나은 예측을 제공하는가? 모든 것을 일정하게 유지하면서 이 질문은 실제로 가치를 제공하는 도구를 드러냅니다. 일반적으로 무도구 모델에 비해 도구가 얼마나 많은 가치를 제공하는가?Level 3: Model Capabilities(모델 능력)프레임워크와 도구를 고정하고 다른 LLM 을 테스트합니다. 동일한 도구 세트에 접근할 때, DeepSeek-V3 가 GPT-4 와 같은 효과를 보이는가? 이는 순수 추론 능력을 측정합니다. 이 체계적인 접근법은 에이전트 파이프라인에서 성능의 개선과 손실이 발생하는 정확한 위치를 이해하게 합니다.

벤치마크는 또한 지시 사항 준수에 대한 견고한 테스트입니다. 에이전트는 특정 포맷 요구 사항을 존중하고 올바르게 파싱 및 실행할 수 있는 동작을 생성해야 합니다. 실제로, 이는 종종 작은 언어 모델이 복잡한 다단계 추론에서 어려움을 겪는 위치를 드러냅니다.

🚀 직접 시도해보세요!라이브 리더보드 탐색: FutureBench Interactive Leaderboard

우리는 모든 질문에 SmolAgents 를 기본 에이전트 프레임워크로 사용합니다. 또한 기본 모델의 성능도 계산합니다. 예측 작업 자체에 대해, 에이전트는 집중된 도구킷에 접근할 수 있습니다:

Search: 최근 정보와 전문가 분석을 찾기 위한 Tavily 통합Web Scraper: 특정 소스를 추적하고 상세한 컨텍스트를 얻기 위한 간단한 웹 크롤링 도구.

이 의도적으로 가벼운 설정은 에이전트가 정보 수집에 대해 전략적이어야 함을 강제하면서도, 정보에 기반한 예측을 위한 도구를 제공합니다.

우리는 smolagents 를 기반으로 다른 모델을 비교합니다 (리더보드는 HF Space 에서 찾을 수 있습니다). 또한 인터넷 접근 없이 표준 언어 모델을 실행하여 일반적인 사전 확률을 추정합니다. 예상대로, 에이전트 모델이 단순 언어 모델보다 더 잘 수행되는 것을 볼 수 있으며, 더 강력한 모델은 더 안정적인 예측 품질을 보입니다. 전반적으로 우리는 다른 모델들이 질문을 어떻게 접근하는지에 대해 흥미로운 패턴도 발견했습니다:

이 벤치마크를 실행함으로써, 다른 모델이 정보를 수집하는 방식을 이해할 수 있는 통찰력을 얻었습니다. 가장 눈에 띄는 차이는 크롤링과 관련이 있습니다. GPT-4.1은 검색 결과에 더 많이 의존하는 것으로 보입니다. Claude3.7과 4는 웹 공간을 더 자세히 탐색하며, 웹 크롤링을 더 자주 사용하는 경향이 있습니다; 이러한 철저한 접근 방식은 또한 연구 과정에서 많은 입력 토큰을 수집하여 비용을 증가시킵니다.

모델들은 예측을 만드는 흥미로운 접근 방식을 보입니다. 예를 들어, "6 월 연평균 인플레이션이 2.6% 이상 증가할 것인가?"라는 질문에 답하기 위해:

The

DeepSeekV3는 최근 CPI 데이터를 검색하여 6 월 2025 년 인플레이션 전망을 분석했습니다 (현재 인플레이션을 2.4-2.8%로 찾음), 관세 영향을 상승 압력으로 고려했으며, 인플레이션이 2.6% 임계치를 초과할 것으로 결론지었습니다.

Claude3.7은 11 번의 검색 (DeepSeekV3 의 3 번에 비해) 을 통해 체계적으로 5 월 2025 년 CPI 데이터 (연간 증가율 2.4%) 를 수집하고, 감소하는 월별 추세를 식별했습니다 (0.2% → 0.1%), 관세 압력과 연준의 수축적 정책을 가중치로 고려하며, 정확한 0.2% 격차를 계산했고, 최근 감속으로 인해 2.6% 임계치를 달성할 가능성이 낮다고 결론지으며 "No"라고 답변했습니다.

GPT4.1은 시장 합의와 예상을 위한 타겟팅된 검색을 통해 6 월 2025 년 인플레이션을 분석했습니다. 5 월 2025 년 CPI 는 2.4% (2.5% 기대치 미만) 로 확인되었으며, 약한 0.1% 월별 증가가 noted되었고, 6 월에 2.6%+ 예측을 하는 예언자는 없으며, 최근 기대치 미만의 추세로 인해 2.4% 에서 2.6% 로의 점프는 unlikely하다고 결론지었습니다.

흥미롭게도 Claude 는 Bureau of Labor Statistics 웹사이트에 직접 접근하여 크롤링하는 것을 시도한 유일한 모델이었으며, 이는 .gov 웹사이트이므로 이 유형의 동작을 허용하지 않기 때문에 실패했습니다.

모델들은 출력에서 구별되는 추론 패턴을 보입니다. GPT 의 분석은 미래 사건에 대한 핵심 신호로 현재 데이터로부터 외삽하기보다 합의 예상을 중점적으로 다루었으며, Claude 의 접근 방식은 체계적인 Pros/Cons 프레임워크와 정량적 격차 분석으로 엄격한 분석 구조를 보였으며, DeepSeekV3 의 출력은 초기 접근이 제약에 부딪힐 때 명시적인 데이터 한도 인정과 체계적인 방법론 조정을 보였습니다.

이러한 행동적 차이는 모델들이 정보를 수집하는 방식을 어떻게 접근하는지에 대한 흥미로운 패턴을 보여줍니다. 웹 사용 및 토큰 소비의 변동은 모델들이 예측 작업을 해결하는 데 다른 전략을 가지고 있음을 시사하며, FutureBench 는 이를 측정하고 이해할 수 있도록 도와줄 것입니다.

한 가지 도전 과제는 입력 토큰의 많은 수로 인해 평가가 비싼다는 점입니다. 예를 들어, Claude 는 웹 페이지를 자주 방문하므로 많은 입력 토큰을 축적합니다. 멀티 턴 루프에서는 입력 토큰 수가 매우 빠르게 급증할 수 있습니다. 이는 대부분의 토큰이 eventual 로 캐시되더라도 이후 생성의 비용을 증가시킵니다.

FutureBench 는 새로운 발견과 더 나은 패턴을 발견함에 따라 계속 발전하고 있으며, 우리는 질문의 출처를 어떻게 개선해야 하는지, 어떤 실험을 수행해야 하는지, 그리고 어떤 데이터가 가장 흥미로운 분석 대상인지에 대한 커뮤니티 피드백을 원합니다.

Singh, S., Nan, Y., Wang, A., D'souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). The Leaderboard Illusion. ArXiv, abs/2504.20879.

Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. ICLR.

Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI: Evaluating LLM Agents for Event Forecasting. ArXiv, abs/2407.01231.

미래로 돌아옴: 미래 사건 예측을 통한 AI 에이전트 평가

요약

핵심 포인트

댓글