arXiv논문2026. 06. 18. 11:12

CEO-Bench: 에이전트가 장기적인 게임을 수행할 수 있는가?

요약

에이전트의 장기적 목표 수행 능력을 평가하기 위한 새로운 벤치마크인 CEO-Bench를 소개합니다. 500일간의 가상 스타트업 운영 시뮬레이션을 통해 에이전트의 불확실성 대응 및 복합적 의사결정 능력을 측정합니다.

핵심 포인트

CEO-Bench는 장기적 목표(long-horizon) 수행 능력을 평가하는 시뮬레이션 환경임
에이전트는 가격 책정, 마케팅, 예산 편성 등 복잡한 비즈니스 요소를 관리해야 함
대부분의 최첨단 모델이 어려움을 겪으며, Claude Opus 4.8과 GPT-5.5만이 완주에 성공함
지속적인 수익 창출보다는 환경 적응력과 복합적 조율 능력을 검증하는 데 중점을 둠

언어 모델 에이전트(Language model agents)는 소프트웨어 엔지니어링 및 고객 서비스와 같이 고립된 단기적 목표(short-horizon tasks)를 수행하는 숙련된 실행자로 거듭나고 있습니다. 하지만 현실 세계의 도전 과제들은 에이전트에게 아직 충분히 검증되지 않은 정교한 기술들의 조합을 요구합니다: (1) 불확실성 속에서 긴 호흡의 목표(long horizons)를 탐색하는 것; (2) 노이즈가 있는 환경에서 정보를 습득하는 것; (3) 변화하는 세상에 적응하는 것; (4) 일관된 목표를 향해 여러 움직이는 요소들을 조율(orchestrating)하는 것. 우리는 대표적인 현실 세계의 과제인 '500일 동안 스타트업 운영하기'를 시뮬레이션하여 이러한 능력들을 통합적으로 평가하는 CEO-Bench를 소개합니다. 에이전트는 프로그래밍 가능한 Python 인터페이스를 통해 가상의 회사의 가격 책정, 마케팅, 예산 편성 및 기타 여러 측면을 관리하며, 인간 CEO와 동일한 환경에서 동일한 도전에 직면합니다. 성공을 위해서는 노이즈가 섞인 상호 연결된 비즈니스 데이터베이스를 분석하고, 신호를 건전한 전략으로 변환하며, 프로그래밍을 통해 많은 결정들을 조율해야 합니다. 가장 강력한 에이전트들은 미래 현금 흐름을 예측하기 위해 고객 코호트(customer cohorts)를 시뮬레이션하는 정교한 코드를 작성하고, 협상 이력을 탐색하여 숨겨진 고객 선호도를 찾아냅니다. 그럼에도 불구하고, 대부분의 최첨단(state-of-the-art) 모델들은 이 환경에서 어려움을 겪습니다. Claude Opus 4.8과 GPT-5.5만이 100만 달러의 시작 잔액 이상을 유지하며 완주했으며, 두 모델 모두 지속적으로 수익을 창출하지는 못했습니다. CEO-Bench는 시간이 지남에 따라 지속적이고 적응적인 발전을 이끌어내는 데 필요한 지능을 측정하기 위한 첫걸음을 내딛습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CEO-Bench: 에이전트가 장기적인 게임을 수행할 수 있는가?

요약

핵심 포인트

댓글