arXiv논문2026. 06. 17. 12:57

첫 번째 증명 두 번째 배치

요약

AI 시스템의 연구 수준 수학 문제 해결 능력을 평가하기 위해 10개의 수학 문제 세트를 활용한 테스트를 진행했습니다. 본 문서는 문제 구성, 방법론, 테스트 결과 및 인간과 AI의 풀이 비교 데이터를 포함합니다.

핵심 포인트

광범위한 수학 분야를 아우르는 10개의 문제 세트 구축
AI 시스템의 고난도 수학적 추론 능력 평가
인간의 풀이와 AI 생성 풀이 및 심사 보고서 비교 분석

현재 AI 시스템이 연구 수준의 수학 문제를 정확하게 해결할 수 있는 능력을 평가하기 위해, 우리는 광범위한 수학 분야의 10개 문제 세트로 여러 AI 시스템을 테스트했습니다. 이 문제들은 기여자들의 연구 과정에서 자연스럽게 발생한 것들입니다. 이 문서는 문제, 우리의 방법론, 그리고 테스트 결과를 포함합니다. 우리는 인간의 풀이, AI가 생성한 풀이, 그리고 AI가 생성한 풀이에 대한 심사 보고서(referee reports) 및 로그를 포함한 보충 문서에 대한 링크를 제공합니다. 10개의 문제는 다음 수학자들에 의해 기여되었습니다: (1) Dariusz Kalociński 및 Theodore A. Slaman, (2) Richard Schwartz, (3) Aleksa Milojevic 및 Benny Sudakov, (4) Larry Guth, (5) Oleg Butkovsky, Jonathan Mattingly, 및 Lorenzo Zambotti, (6) Joshua Evan Greene 및 Duncan McCoy, (7) Sucharit Sarkar, (8) Sam Payne 및 Jidong (Jayden) Wang, (9) Sylvie Corteel 및 John Lentfer, (10) Srivatsav Kunnawalkam Elayavalli.

AI 자동 생성 콘텐츠

원문 바로가기

첫 번째 증명 두 번째 배치

요약

핵심 포인트

댓글